Recuperación de Información | Sistemas de Información y Documentación | Universidad de la Salle

U. de la Salle

Eres el visitante No.

Reproducir Video en Nueva Ventana

miércoles, 15 de septiembre de 2010

Introducción: conceptos fundamentales en Recuperación de Información


Definición de Recuperación de Información

Baeza – Yates [1999]: Parte de la informática que estudia la recuperación de la información (no datos) de una colección de documentos escritos. Los documentos recuperados pueden satisfacer una necesidad de información de un usuario expresada normalmente en lenguaje natural.

Korfhage [1997]:La localización y presentación a un usuario de información relevante a una necesidad de información expresada como una pregunta.

Salton [1989]: Un sistema de recuperación de información procesa archivos de registros y peticiones de información, e identifica y recupera de los archivos ciertos registros en respuesta a las peticiones de información.

La recuperación de información se centra en la representación, almacenamiento, organiczacion y acceso a elementos de información. Estos procesos deberían proporcionar al usuario la capacidad de acceder a la información que necesita. Sin embargo existe un problema bastante importante en lo referente a la caracterización de las necesidades de información del usuario, que no suele ser facil de solucionar.

Ejemplo:

Sin embargo cualquier necesidad de información expresada directamente en los términos en los que un usuario conversaría con un documentalista no tiene una traducción directa en términos de los sistemas de recuperación de información actuales.

De esta forma es necesario traducir la necesidad del usuario en una consulta que un sistema de recuperación de información pueda procesar para devolver los documentos pertinentes a dicha necesidad.

Normalmente una consulta se forma de un conjunto de palabras clave que resume los contenidos de un documento que el usuario intenta recuperar. El papel de un sistema de recuperación de información será entonces el de utilizar la consulta para conseguir la información que mejor satisfaga la necesidad del usuario.

El proceso de formar una consulta que al mismo tiempo represente bien las necesidades del usuario y sea utilizable por el sistema puede verse obstaculizado por problemas como la ambigüedad del lenguaje natural. Esta ambigüedad puede ser parcialmente resuelta mediante la utilización de lenguajes documentales, pero desafortunadamente estos no cubren todas las posibles necesidades de un usuario cualquiera, y por tanto son aplicables sólo a ámbitos restringidos. Este será no obstante un factor a analizar en el tema de creación de consultas que veremos más adelante.

Es necesario puntualizar que lo que un sistema de recuperación de información intenta obtener de una colección o una base de datos es precisamente información, y no datos.


Recuperación de información vs recuperación de datos

Datos
Hechos representados en forma legible. Como en las bases de datos relacionales.

Información
Datos organizados de forma coherente. Como en los sistemas de recuperación de información

Conocimiento
Información que puede ser utilizada para un propósito.

Diferencias entre Recuperación de Información y Recuperación de Datos

Criterio                                 Información                        Datos
Lenguaje de consulta        Lenguaje natural                Lenguaje artificial
Modelo                                  Probabilístico                       Determinista
Respuesta                            Relevante(*)                         Adecuada
Pregunta                              Difusa                                               Completa
Correspondencia                Parcial                                   Exacta
Se buscan                            Documentos                        Registros

La recuperación de datos se basa en determinar qué documentos en una colección contienen las palabras clave expresadas en una consulta. Esto muchas veces no satisface las necesidades de información del usuario.

La forma en la que se interpretan las consultas en la recuperación de datos es muy estricta, de forma que la aparición de un documento que no incluya los términos expresados en la consulta se considera como un fracaso, mientras que esto no es así en recuperación de información. Esto se debe a que los resultados en RI pretenden ser relevantes y en RD deben ser acertados.

De hecho las consultas de los usuarios en un sistema de RI pueden ser interpretadas con cierto grado de ambigüedad, lo que genera respuestas con una correspondencia parcial a la pregunta, mientras que en RD las consultas se interpretarán de forma literal y producirán resultados exactos.
La diferencia fundamental entre ambas alternativas reside en el hecho de que la Recuperación de Información trabaja sobre la base del lenguaje natural, mientras que la Recuperación de Datos trabaja con datos con una estructura y una semántica muy bien establecidas.

Ejemplo: Base de datos relacional, y base de datos documental

Para tener éxito en la recuperación de información valiosa para el usuario los SRI deben interpretar los contenidos de los documentos y ordenarlos de acuerdo con la relevancia a la consulta para presentarlos al usuario. Esta interpretación de los documentos implica la extracción de cierta información semántica y sintáctica y su utilización para averiguar el grado de cercanía con la consulta del usuario.

La forma en que los documentos de una colección se interpretan depende del modelo teórico utilizado, y como veremos en días sucesivos existe una gran variedad de posibilidades. Sin embargo todos esos modelos intentan llevar a cabo una misma tarea, utilizar esa información para averiguar la relevancia de un documento con respecto a una determinada consulta.

Relevancia y Pertinencia

Un documento recuperado es relevante cuando satisface una determinada consulta. Una consulta es la expresión de una necesidad de información, pero ambas no son exactamente lo mismo. Un documento puede considerarse relevante si el contenido del mismo posee alguna significación o importancia con motivo de la pregunta realizada por el usuario. Por tanto la relevancia queda asociada con el concepto de la relación existente entre los contenidos de un documento y los contenidos de una consulta.

Hay todavía un importante debate acerca del significado del término y de la utilidad de dicho concepto a la hora de evaluar la calidad de un sistema, como se verá en el tema sobre evaluación. Un buen artículo acerca de este tema se puede encontrar en:
http://people.unt.edu/~skh0001/das1 Dagobert Soergel analiza los conceptos fundamentales que ahora expondremos con mucha profundidad, así que es del todo recomendable a este respecto. 

Según Soergel un documento es pertinente si este es relevante y al mismo tiempo apropiado para una persona en concreto con respecto de una necesidad en concreto. El término apropiado implica que la persona pueda entender el documento y aplicar la información extraída. Por tanto, un documento puede ser relevante para una consulta y al mismo tiempo puede no ser pertinente para un usuario dado porque éste no tenga los conocimientos necesarios para entenderlo, o no esté escrito en un idioma que conozca.
Se trata de un concepto intrinsecamente subjetivo.

Por último podríamos hablar de un tercer concepto, que es el de utilidad. Un documento sería util para un usuario si este fuera pertinente y al mismo tiempo aportara conocimiento nuevo al usuario.

El proceso de recuperación

Fuente: http//dc.exa.unrc.edu.ar/rio/anteriores/rio05_material/alonso/apli01.ppt

Lo primero que debemos hacer es definir la fuente de procedencia de la información. Generalmente se tratará de un sistema de gestión de bases de datos, aunque no es la única posibilidad.

Una vez definida esta fuente de procedencia es necesario llevar a cabo una serie de operaciones sobre el texto que transformarán los documentos en una representación de los mismos, con unas determinadas cualidades y estructura.  Esta representación de los documentos también se denomina vista lógica.

Una vez hemos transformado los documentos en su vista lógica necesitaremos establecer un índice, una estructura que permite la búsqueda entre ingentes cantidades de los mismos. Uno de los tipos de índices más utilizados es el de los archivos invertidos. La forma en que se construye el índice varía de paradigma en paradigma, pero en general se trata de una tarea de indización automática.

Una vez hemos disponemos de un índice puede comenzar el proceso de recuperación propiamente dicho.

En primer lugar el usuario expresa una necesidad de información que se analiza y transforma de acuerdo al mismo procedimiento utilizado con los documentos originales. De esta forma se obtiene una vista lógica de las necesidades de información o, en otras palabras, una consulta.

Esta consulta puede ser refinada y modificada de acuerdo a un conjunto de operaciones sobre consultas que la transformarán de forma que los resultados finales del proceso mejoren.

En este momento tenemos las dos partes del problema (la necesidad de información y los documentos) traducidos a términos del sistema, consulta y representación de los documentos, o vista lógica.

A partir de aquí se puede procesar la consulta y recuperar los documentos más relevantes. Antes de que estos documentos se devuelvan al usuario se ordenarán por su relevancia a la consulta, en una operación que comunmente se denomina Ranking

http://webcache.googleusercontent.com/search?q=cache:nN2zrgP_Mr0J:www.ucm.es/info/multidoc/apuntesRSJ/tecnicas-avanzadas/tema-1-introduccion.rtf+Relevancia+Recuperacion+de+informaci%C3%B3n&cd=15&hl=es&ct=clnk&gl=co

No hay comentarios:

Publicar un comentario

Licencia de Creative Commons
Manual de Alfresco by Claudia Marcela Torres is licensed under a Creative Commons Attribution-ShareAlike 2.5 Colombia License.
Based on a work at www.alfresco.com.
Permissions beyond the scope of this license may be available at http://creativecommons.org.