Recuperación de Información | Sistemas de Información y Documentación | Universidad de la Salle

U. de la Salle

Eres el visitante No.

Reproducir Video en Nueva Ventana

miércoles, 15 de septiembre de 2010

Recuperación de información

Contenidos

1. Evolución del significado del término
2. Recuperación de Información y Recuperación de Conocimiento
3. Recuperación de Información y Sistemas de Recuperación de Información
4. Metadatos, descriptores e indización
5. Recuperación de Información mediante vocabularios controlados
6. Relevancia
7. Medidas de Recuperación
8. Modelos de Recuperación


La recuperación de información es el conjunto de actividades orientadas a facilitar la localización de determinados datos u objetos, y las interrelaciones que estos tienen a su vez con otros. Existen varias disciplinas vinculadas a esta actividad como la lingüística, la documentación o la informática.

1. Evolución del significado del término
Aunque tradicionalmente se limitaba a la recuperación de documentos escritos, el término se redefinió para incorporar la creciente aparición de materiales multimedia. Asi, los nuevos buscadores de información en Internet, que originariamente buscaban textos, expandieron su actividad a imágenes, videos o audios.  De esta forma términos como Recuperación de textos, recuperación documental y recuperación de información son utilizados como equivalentes.
Por otro lado, la necesidad de localizar datos concretos ha ido expandiendo su área de actuación. En la actualidad se está migrando desde la recuperación de documentos a la recuperación pregunta-respuesta, que responden con el dato concreto y no con el conjunto de documentos que posiblemente contenga este dato.


2. Recuperación de Información y Recuperación de Conocimiento
Con frecuencia, la información responde a qué es algo y que propiedades lo describe, pero tan sólo parte de la información indica cómo se elabora o se desarrolla un proceso. Este tipo de información es básicamente  conocimiento. Esta premisa muestra que el conocimiento implica dos cuestiones fundamentales: la existencia de un fin y una relación con otra información de un sistema para lograr un objetivo.
La existencia de un fin para saber cómo se realiza algo presupone la intencionalidad y necesidad de lograr algo. Esta finalidad ha provocado que el conocimiento se asocie a los seres vivos.
Por otra parte, el conocimiento implica que la información esté relacionada dentro de un sistema para lograr un objetivo. La información necesaria sobre cómo procesar un objetivo se transforma así en una serie de reglas y restricciones. De esta manera es comprensible que muchos sistemas de recuperación especializada, hayan pasado a autodenominarse Sistemas de Recuperación de Conocimiento.
Asi el desarrollo de ontologías, agentes inteligentes y de la inteligencia artificial ha propiciado un cambio de denominación hacia recuperación del conocimiento. Desde esta perspectiva no se pretende que el buscador recupere por palabras presentes en los documentos, sino que sea posible recuperar procesos y otros tipos de interrelaciones entre los elementos almacenados.

3. Recuperación de Información y Sistemas de Recuperación de Información
En la literatura, la exposición de estas estrategias suele estar vinculada a determinado Sistema de Recuperación. Ya que el desarrollo de estas aplicaciones informáticas surgió como respuesta a la gestión de la sobreabundancia de información actual. La forma en que esta información es almacenada suele ser mediante Bases de Datos y repositorios documentales.

4. Metadatos, descriptores e indización
Dado la limitada capacidad de los ordenadores, originariamente, la recuperación tenía que estar limitada a unos pocos atributos o metadatos del objeto. Entre los que destacaban el autor, el título o las palabras más significativas del contenido expresado en el texto o descriptores. La asignación de estos descriptores, denominada indización, era manual.
Estos mismos metadatos son empleados actualmente en la Web Semántica por su mayor simplicidad que el lenguaje natural, facilitando la interoperabilidad y la navegación en la Web.
La indización automática trata de automatizar la asignación de términos relevantes a un documento de forma automática. La relevancia es calculada mediante cálculos estadísticos y localización del mismo. Ejemplos son tf-IDF, la eliminación de palabras vacías, el mayor valor de los términos en los títulos, en formato destacado (p.e. negrilla), etc. Muchos de estos factores son utilizados para ordenar los resultados en los motores de recuperación.

5. Recuperación de Información mediante vocabularios controlados
Los descriptores, usualmente, estaban listados en un vocabulario de un dominio cerrado y normalizado, denominado controlado. En este vocabulario pueden existir, incluso, interrelaciones entre estos términos. El control de este vocabulario trata de solventar dos de los principales problemas de la recuperación de información: la polisemia, la homonimia y la sinonimia.
Las relaciones de estos vocabularios pueden ser de varios tipos. En el caso de los tesauros están son de equivalencia, jerarquía y relación. Los tesauros facetados  disponen de varias vistas que facilitan la recuperación.

6. Relevancia
La relevancia es una medida del grado en que determinado elemento responde a una consulta. Su medida es frecuentemente subjetiva, ya que responden a la consulta en función del conocimiento de quién evalúa y del que pregunta.
7. Medidas de Recuperación
El funcionamiento de un sistema de recuperación de información se puede medir analizando los datos (o documentos) recuperados ante una consulta. Dos son las principales medidas:
  • Precision: volumen de datos relevantes entre el total de datos recuperados 
  • Exhaustividad: volumen de datos relevantes entre el total de datos  relevantes en el repositorio o la BD
Ambas medidas tienden a evolucionar en sentido inverso (Ley de Cleverdon). Cuanto más crece la precisión más disminuye la exhaustividad, y al contrario. Esto es debido a que miden factores distintos, el ruido y el silencio:
  • Ruido: información recuperada no relevante
  • Silencio: información no recuperada que es relevante
Dado que para calcular estas medidas es necesario conocer cuantos elementos relevantes existen, son necesarios listados de la relevancia de los documentos ante un conjunto de consultas. Estos listados se llaman colecciones de pruebas (test collections), y son utilizadas en competiciones internacionales para testear los sistemas de recuperación. La más conocida de las cuales es TREC.

8. Modelos de Recuperación
Los modelos de recuperación tratan de calcular el grado en que determinado elemento de información responde a determinada consulta. En general esto se consigue calculando los coeficientes de similitud (Coseno, Phi, etc). Los tres modelos más utilizados son:
  • Booleano: se crea un conjunto con los elementos de la consulta y otro con los documentos, y se mide la correspondencia.
  • Vectorial: en el que la consulta y los términos del documento se representan mediante dos vectores, y se mide el grado en que ambos vectores divergen. 
  • Probabilístico: se calcula la probabilidad en que el documento responde a la consulta. Frecuentemente utiliza retroalimentación. La retroalimentación se basa en que el usuario indique que documentos se parecen más a su respuesta idonea, para asi reformular la consulta.
http://sites.google.com/site/glosariobitrum/Home/recuperacion-de-informacion

No hay comentarios:

Publicar un comentario

Licencia de Creative Commons
Manual de Alfresco by Claudia Marcela Torres is licensed under a Creative Commons Attribution-ShareAlike 2.5 Colombia License.
Based on a work at www.alfresco.com.
Permissions beyond the scope of this license may be available at http://creativecommons.org.