Recuperación de Información | Sistemas de Información y Documentación | Universidad de la Salle

U. de la Salle

Eres el visitante No.

Reproducir Video en Nueva Ventana

miércoles, 15 de septiembre de 2010

El cálculo de la relevancia

Existen dos métodos para calcular la relevancia, uno manual y otro conocido como polling :
  • Manual: consiste en la exploración de los documentos uno a uno para saber si se adecúan o no como respuesta a una pregunta. Muchas veces establecer la relevancia de un documento para una pregunta determinada resulta difícil y los especialistas no se ponen de acuerdo, por ello, es conveniente que los juicios los haga más de uno, y a ser posible un número impar de especialistas. El principal problema que presenta este método, es que en colecciones muy grandes, hay que invertir gran cantidad de tiempo, lo que supone mucho dinero para realizar esta operación y esto no siempre es posible. Además, algunas bases de datos son más especializadas que otras, lo que hace necesario contar con un número mayor o menor de especialistas. Para solventar estos problemas se crean las colecciones experimentales, donde se fija de antemano qué documentos son relevantes para cada pregunta.
    Estas colecciones suelen tener un tamaño medio y suelen pertenecer a una misma área temática o muy próxima para que no sea necesaria la intervención de muchos especialistas.Un ejemplo de una colección manual es la de Crandfield [Cleverdon 91]. En este caso se buscaron los artículos y se les pidió a los autores que elaboraran preguntas cuya respuesta fuera su artículo y también se les pidió que citaran otros artículos que correspondieran a esa misma pregunta que ellos habían formulado. Con las preguntas y los artículos citados por los autores se elaboró la base de datos, la colección de preguntas, y los juicios de relevancia.
  • Polling : cuando las bases de datos son muy grandes, y no es posible evaluar uno a uno los documentos, para determinar cuáles son los documentos relevantes, se recurre al "polling". Lo que se hace es analizar de manera manual un número determinado de documentos recuperados con distintos sistemas, este número suele ser elevado (varios centenares) y se corresponde con los primeros documentos recuperados con cada sistema. Este conjunto de documentos es el que de manera manual analizan los expertos, que son los encargados de decir en último término si son relevantes o no. Este sistema asume que la gran mayoría de los documentos relevantes son encontrados, si no por todos los sistemas, sí al menos por alguno de ellos, y los no recuperados pueden considerarse como no relevantes Kowalski 97].
    De esta manera no es necesario evaluar toda la base de datos, pero aún así el sistema es fiable ya que el número de documentos que se suele examinar es elevado. Este sistema es el que se viene utilizando en las TREC desde 1994 [Harman 95].




    http://www.hipertext.net/web/pag238.htm#La%20relevancia

No hay comentarios:

Publicar un comentario

Licencia de Creative Commons
Manual de Alfresco by Claudia Marcela Torres is licensed under a Creative Commons Attribution-ShareAlike 2.5 Colombia License.
Based on a work at www.alfresco.com.
Permissions beyond the scope of this license may be available at http://creativecommons.org.