Recuperación de Información | Sistemas de Información y Documentación | Universidad de la Salle

U. de la Salle

Eres el visitante No.

Reproducir Video en Nueva Ventana

jueves, 16 de septiembre de 2010

Consultas al STRID: las ecuaciones de búsqueda

La búsqueda se realiza sobre un conjunto de términos introducido en el sistema por el usuario. Sin embargo, esta es la fase final de un proceso que comienza por el análisis de los documentos que se van a introducir, los datos que los conforman, y cómo estos forman una estructura de datos, como se ha visto en el capítulo correspondiente. Existen múltiples metodologías de diseño de estructuras de datos, cada una con sus virtudes y sus defectos. La estructura de datos se plasma en el sistema informático en una estructura de base de datos, a partir de la cual se introducen los documentos. La organización de la información con vistas a su recuperación dentro de un sistema documental ha producido abundante bibliografía en la que pueden analizarse múltiples aspectos (TAGUE SUTCLIFFE, 1996).
4.6.1. El proceso de búsqueda.
El proceso de búsqueda de la información es más complejo de lo que pueda parecer en un primer momento, y tiene, con posibles variaciones (véase el panorama esbozado con anterioridad sobre la recuperación de información), las siguientes fases:
1.- Definición del tema de búsqueda.
2.- Selección de términos descriptivos sobre el tema de búsqueda. Consulta de tesauros o diccionarios, etc.
3.- Selección de las bases de datos sobre las que realizar la búsqueda.
4.- Formulación y ejecución de ecuaciones de búsqueda.
5.- Evaluación de los resultados. Replanteamiento, si procede, de las ecuaciones para ajustar la búsqueda.
Se debe considerar, además, que la definición del tema y de los términos para la búsqueda se hace en lenguaje natural, lenguaje que debe traducirse a la terminología empleada en la base de datos, y que los términos empleados en las ecuaciones son la traslación al lenguaje de interrogación de la base de datos de los términos originales, combinados mediante operadores que aplican lógica matemática. Tampoco hay que olvidar que la localización de esos términos dentro de la base de datos está en muchos casos sujeta a la estructura de campos existente. Lo anterior hace ineludible la utilización de lenguajes documentales para la correcta explotación de las bases de datos documentales.
En principio, debe aceptarse que la búsqueda incluye una serie de términos significativos, los cuales describen el área de interés para la recuperación de información. Estos términos mantienen entre ellos algún tipo de relación semántica. Esta relación debe reflejarse a través de la utilización de operadores que la reflejen, y por esta causa una ecuación de búsqueda se compone de dos tipos de elementos. En primer lugar, los términos que representan el tema de interés, y en segundo lugar, un conjunto de operadores que expresan la relación que deben mantener los términos entre sí. Este segundo tipo de elementos son el objeto de los siguientes párrafos.
4.6.2. Tipos de operadores utilizados en las ecuaciones de búsqueda.
La combinación de los términos necesarios para la recuperación de los documentos adecuados se basa en la utilización de unos operadores, especialmente los denominados booleanos, en honor de George Boole, que en 1847 publicó un trabajo titulado The mathematical Analysis of Logic, en el que sentó las bases de la denominada álgebra lógica o simbólica. La combinación de los términos mediante los operadores crea una forma matemática, una ecuación, susceptible de ser tratada por medios informáticos.
Los operadores booleanos establecen relaciones entre los términos, y son O (operador de unión), Y (operador de intersección) y NO (operador de exclusión). Trabajan sobre el conjunto de los documentos, estableciendo subconjuntos con aquellos documentos que se ajusten a las condiciones fijadas en la ecuación.
La complejidad que rodea a los mecanismos de recuperación de la información ha hecho necesario aplicar otros operadores, que complementen a los booleanos. En primer lugar, los operadores de localización, referidos a la posición de los términos dentro de los documentos. Se basan en una hipótesis según la cual la cercanía entre dos términos puede significar una estrecha relación entre ellos. Pueden ser absolutos, cuando se establece que un término debe aparecer en un campo determinado, independientemente del resto de los términos incluidos en la ecuación, o relativos, cuando se establece que un término debe tener una posición referida a otro término incluido en la ecuación, por ejemplo en la misma línea, la misma frase, separados por "x" palabras, etc. Ambos pueden combinarse. También se encuentran los operadores de rango o intervalo, que establecen un intervalo, dentro del cual deben encontrarse los términos a recuperar, especialmente utilizados en la recuperación de datos numéricos y de fechas. Las dificultades que se desprenden de las características intrínsecas de los términos también afectan a la recuperación de la información. Se pueden plantear problemas con el uso de plurales de los términos, géneros o prefijos y raíces. Para intentar reducirlos, se emplean símbolos de truncamiento, cuya finalidad es indicarle al sistema de recuperación que se está buscando una cadena de caracteres dentro de un término, no un término en sí mismo.
Todos los operadores señalados pueden combinarse entre sí para crear ecuaciones complejas, considerando que siempre se establecen unas limitaciones por parte de los operadores. Normalmente, se ejecutan primero aquellas operaciones con los operadores más restrictivos, y su resultado se combina con los términos relacionados con operadores menos restrictivos. Los sistemas de gestión de bases de datos documentales incluyen en su documentación tanto los operadores disponibles y su uso, como las limitaciones y restricciones establecidas.
4.6.3. La recuperación mediante exploración.
La utilización de ecuaciones de búsqueda como principal herramienta en la recuperación de información plantea problemas, que los enfoques actuales de investigación pretenden resolver mediante la creación de mejores interfaces de usuario (INGWERSEN, 1992), que reflejen los mapas cognitivos de los usuarios, y permitan generar imágenes de los mismos que puedan ser utilizadas para interrogar los recursos de información. Interrogación que debería verse complementada por la capacidad de los sistemas de añadir funciones de exploración de los contenidos informativos, durante el proceso de recuperación. El fundamento de los procesos de exploración es la revisión y análisis de documentos por sus contenido, de forma que el sistema sea capaz de llevar al usuario a otras informaciones similares o relacionadas, sin necesidad de formular nuevas ecuaciones de búsqueda.
4.6.4. Los resultados: análisis y modificación.
Una vez considerado todo lo expuesto, y realizada una búsqueda, es de rigor analizar su pertinencia. Una alta pertinencia se caracteriza por la recuperación de los documentos adecuados a la información que se deseaba obtener, evitando la introducción de otros que puedan distorsionar el conjunto, y cumplir los requisitos de una correcta recuperación de la información En sistemas de tratamiento y recuperación de información documental, ésta debe ser exacta, exhaustiva, precisa, oportuna, íntegra y significativa. Por contra, el silencio (falta de documentos) y el ruido (exceso de documentos, muchos de ellos no significativos) caracterizan a un bajo nivel de pertinencia.
Como resultado del análisis anterior, cabe plantearse la adecuación de la respuesta obtenida a lo esperado. Pueden darse dos situaciones, ante las cuales deben adoptarse diferentes acciones. En un primer caso, puede suceder que el resultado de la ecuación sea demasiado escaso. Entonces procede ampliarla, lo cual puede hacerse con la utilización de términos más genéricos, sinónimos, o ampliación de truncamientos. En un segundo caso, si el resultado obtenido es excesivamente amplio, deben utilizarse medidas contrarias: utilización de términos más específicos, reducción de truncamientos, etc.

http://tramullas.com/documatica/4-6.html

No hay comentarios:

Publicar un comentario

Licencia de Creative Commons
Manual de Alfresco by Claudia Marcela Torres is licensed under a Creative Commons Attribution-ShareAlike 2.5 Colombia License.
Based on a work at www.alfresco.com.
Permissions beyond the scope of this license may be available at http://creativecommons.org.