Recuperación de Información | Sistemas de Información y Documentación | Universidad de la Salle

U. de la Salle

Eres el visitante No.

Reproducir Video en Nueva Ventana

viernes, 29 de octubre de 2010

XEROX DOCUSHARE

Xerox DocuShare permite la gestión de documentos, colaboración, revisión, aprobación, y publicación en Web para apoyar el intercambio de información en todos los puntos de la empresa por cada trabajador del conocimiento.  Cuando se combina con los dispositivos multifunción con capacidad de exploración Xerox DocuShare proporciona un extremo a extremo documento solución completa de gestión de un solo proveedor de confianza.

 

martes, 12 de octubre de 2010

Ecuación de búsqueda

Es el  término o el conjunto de términos  relevantes para la localización de fuentes  de acuerdo a una búsqueda de información especifica, se obtienen a traves la  del objetivo inicial de búsqueda al sistema de entrada de los propios instrumentos de búsqueda.

Instrumento de Búsqueda

Es la herramienta diseñada para estructurar el proceso de búsqueda de información, consta  de un sistema de entrada, una base de datos sobre la que realizar la búsqueda y un sistema de actualización de su contenido. El tipo de información en la  base de datos junto y el sistema de actualización, permiten conocer la veracidad del instrumento y por lo tanto el número de referencias relevantes arrojadas ante una búsqueda determinada.

Estrategia de Búsqueda

Procedimiento  que permite estructurar la secuencia de pasos a seguir al utilizar un determinado método de búsqueda de información. Una estrategia bien estructurada permite asegurar la verificabilidad de la búsqueda, así como acordar razonablemente que las variaciones en los resultados de la búsqueda se deben a una variación en el universo de búsqueda y no en el propio procedimiento.

Método de Búsqueda.

Perspectiva previa al planteamiento de una búsqueda de información concreta que determina, a través de la elección de un método de búsqueda concreto, la forma en la que ésta será llevada a cabo, así como el tipo de resultados que se espera obtener.

Terminos controlados

Son conceptos y/o símbolos  estructurados mediante procedimientos de control de vocabulario , su objetivo es representar  el contenido de los documentos, para facilitar su recuperación temática por usuarios indiscriminados. El lenguaje documental se desarrolla bajo una lógica particular,  expresando  el contexto sociocultural y el estado de avance científico tecnológico de la época. Se conocen lenguajes documentales de notación y conceptuales o de concepto. Los lenguajes documentales de notación otorgan un símbolo codificado (generalmente en letras y números) para cada concepto, además se reconocen como sistema de Clasificación.  El sistema conceptual o de concepto es aquel que proporciona directamente conceptos para representar el contenido de los documentos. Ejemplo de sistemas conceptuales los tesauros, lista de autoridades y listas de encabezamiento.

OBJETIVOS DE LA RECUPERACIÔN DE INFORMACIÔN

  • Recuperar sobre cualquier tipo de documento
  • Entender las preguntas 
  • Buscar el mecanismo para poder comparar y mostrar la mejor forma posible los resultados con precisión

jueves, 16 de septiembre de 2010

El concepto de recuperación de información

Los fundamentos sobre los que construir una técnica exitosa de recuperación de información en Internet son: 
  1. El conocimiento de las características propias de los documentos existentes en Internet, y 
  2. La teoría de la recuperación de información
Las aproximaciones a la RI en Internet pueden establecerse según la creación de recursos, o según al herramienta utilizada. Ambos enfoques, al igual que en casos anteriores, no son excluyentes
 
Según la creación del recurso:
La creación de listados, índices y catálogos ordenados por áreas o materias, de forma que el usuario dispusiese de un conjunto de fuentes seleccionadas en las que empezar a buscar. El ejemplo más conocido es el norteamericano Yahoo!. Han ido añadiendo motores internos a sus prestaciones, de forma que permiten consultar mediante ecuaciones sus
bases de datos. La creación automática de bases de datos basadas en índices o ficheros
inversos, mediante unas aplicaciones que rastrean o exploran todo el ámbito Web, llamados robots, spiders o wanderers. Estos robots rastrean el web a la búsqueda de documentos, obtienen una copia, la indizan, y usan los enlaces presentes en los mismos para localizar nuevos documentos  

Según la herramienta utilizada:
  1.  Directa: El navegador se conecta al servidor Web que actúa como interfaz del motor de búsqueda correspondiente a la base de datos que desea consultar. El servidor le envía una página Web que actúa como interfaz de interrogación, a través de la cual formula la consulta. El servidor la recibe, procesa y envía como respuesta una nueva página Web, generada de forma dinámica, que contiene las respuestas más pertinentes a la cuestión formulada por el usuario. 
  2. Por intermediario: El navegador se conecta a un servidor web que le ofrece una interfaz de interrogación propia. Esta interfaz le permite interrogar una base de datos correspondiente a un motor de búsqueda situado en un servidor web diferente al que ofrece la interfaz. La interfaz actúa como intermediario entre el motor de búsqueda de destino y el usuario. El interés de estos intermediarios (metabuscadores) se da cuando consultan a múltiples motores de búsqueda. 
  3. Por agente: El usuario instala en su computador una aplicación que permite formular las ecuaciones de búsqueda y remitirlas a uno o varios motores de búsqueda. 
La aplicación lanza conexiones simultáneas al conjunto de motores que se trate, recibe las respuestas, y las entrega al usuario en una presentación única, que puede ofrecer diferentes formas.
Finalmente y dependiendo de las prestaciones del agente, las respuestas pueden ser filtradas, aplicando criterios propios de eliminación de duplicados, reordenación de resultados, etc. 

4.  Por robot personal2: Se trata de aplicaciones que se instalan en el
computador del usuario, y que son capaces de acceder a un servidor web,
construir un mapa de índices de sus contenidos, y utilizar los mismos para
acceder a la información que sea interesante para el usuario, obteniendo
copias de las páginas o documentos web contenidos en el mismo.

ARCHIVO INVERTIDO

El archivo invertido contiene todos los términos que pueden usarse como puntos de acceso durante la recuperación de registros en una base de datos, y para cada término, la lista de referencias a los registros del archivo maestro de donde se extrajo el término. Al conjunto de todos los puntos de acceso para una base de datos determinada se le denomina diccionario. Se puede considerar el archivo invertido como un índice del contenido del archivo maestro.

http://www.cindoc.csic.es/isis/01-3-3.htm

Consultas al STRID: las ecuaciones de búsqueda

La búsqueda se realiza sobre un conjunto de términos introducido en el sistema por el usuario. Sin embargo, esta es la fase final de un proceso que comienza por el análisis de los documentos que se van a introducir, los datos que los conforman, y cómo estos forman una estructura de datos, como se ha visto en el capítulo correspondiente. Existen múltiples metodologías de diseño de estructuras de datos, cada una con sus virtudes y sus defectos. La estructura de datos se plasma en el sistema informático en una estructura de base de datos, a partir de la cual se introducen los documentos. La organización de la información con vistas a su recuperación dentro de un sistema documental ha producido abundante bibliografía en la que pueden analizarse múltiples aspectos (TAGUE SUTCLIFFE, 1996).
4.6.1. El proceso de búsqueda.
El proceso de búsqueda de la información es más complejo de lo que pueda parecer en un primer momento, y tiene, con posibles variaciones (véase el panorama esbozado con anterioridad sobre la recuperación de información), las siguientes fases:
1.- Definición del tema de búsqueda.
2.- Selección de términos descriptivos sobre el tema de búsqueda. Consulta de tesauros o diccionarios, etc.
3.- Selección de las bases de datos sobre las que realizar la búsqueda.
4.- Formulación y ejecución de ecuaciones de búsqueda.
5.- Evaluación de los resultados. Replanteamiento, si procede, de las ecuaciones para ajustar la búsqueda.
Se debe considerar, además, que la definición del tema y de los términos para la búsqueda se hace en lenguaje natural, lenguaje que debe traducirse a la terminología empleada en la base de datos, y que los términos empleados en las ecuaciones son la traslación al lenguaje de interrogación de la base de datos de los términos originales, combinados mediante operadores que aplican lógica matemática. Tampoco hay que olvidar que la localización de esos términos dentro de la base de datos está en muchos casos sujeta a la estructura de campos existente. Lo anterior hace ineludible la utilización de lenguajes documentales para la correcta explotación de las bases de datos documentales.
En principio, debe aceptarse que la búsqueda incluye una serie de términos significativos, los cuales describen el área de interés para la recuperación de información. Estos términos mantienen entre ellos algún tipo de relación semántica. Esta relación debe reflejarse a través de la utilización de operadores que la reflejen, y por esta causa una ecuación de búsqueda se compone de dos tipos de elementos. En primer lugar, los términos que representan el tema de interés, y en segundo lugar, un conjunto de operadores que expresan la relación que deben mantener los términos entre sí. Este segundo tipo de elementos son el objeto de los siguientes párrafos.
4.6.2. Tipos de operadores utilizados en las ecuaciones de búsqueda.
La combinación de los términos necesarios para la recuperación de los documentos adecuados se basa en la utilización de unos operadores, especialmente los denominados booleanos, en honor de George Boole, que en 1847 publicó un trabajo titulado The mathematical Analysis of Logic, en el que sentó las bases de la denominada álgebra lógica o simbólica. La combinación de los términos mediante los operadores crea una forma matemática, una ecuación, susceptible de ser tratada por medios informáticos.
Los operadores booleanos establecen relaciones entre los términos, y son O (operador de unión), Y (operador de intersección) y NO (operador de exclusión). Trabajan sobre el conjunto de los documentos, estableciendo subconjuntos con aquellos documentos que se ajusten a las condiciones fijadas en la ecuación.
La complejidad que rodea a los mecanismos de recuperación de la información ha hecho necesario aplicar otros operadores, que complementen a los booleanos. En primer lugar, los operadores de localización, referidos a la posición de los términos dentro de los documentos. Se basan en una hipótesis según la cual la cercanía entre dos términos puede significar una estrecha relación entre ellos. Pueden ser absolutos, cuando se establece que un término debe aparecer en un campo determinado, independientemente del resto de los términos incluidos en la ecuación, o relativos, cuando se establece que un término debe tener una posición referida a otro término incluido en la ecuación, por ejemplo en la misma línea, la misma frase, separados por "x" palabras, etc. Ambos pueden combinarse. También se encuentran los operadores de rango o intervalo, que establecen un intervalo, dentro del cual deben encontrarse los términos a recuperar, especialmente utilizados en la recuperación de datos numéricos y de fechas. Las dificultades que se desprenden de las características intrínsecas de los términos también afectan a la recuperación de la información. Se pueden plantear problemas con el uso de plurales de los términos, géneros o prefijos y raíces. Para intentar reducirlos, se emplean símbolos de truncamiento, cuya finalidad es indicarle al sistema de recuperación que se está buscando una cadena de caracteres dentro de un término, no un término en sí mismo.
Todos los operadores señalados pueden combinarse entre sí para crear ecuaciones complejas, considerando que siempre se establecen unas limitaciones por parte de los operadores. Normalmente, se ejecutan primero aquellas operaciones con los operadores más restrictivos, y su resultado se combina con los términos relacionados con operadores menos restrictivos. Los sistemas de gestión de bases de datos documentales incluyen en su documentación tanto los operadores disponibles y su uso, como las limitaciones y restricciones establecidas.
4.6.3. La recuperación mediante exploración.
La utilización de ecuaciones de búsqueda como principal herramienta en la recuperación de información plantea problemas, que los enfoques actuales de investigación pretenden resolver mediante la creación de mejores interfaces de usuario (INGWERSEN, 1992), que reflejen los mapas cognitivos de los usuarios, y permitan generar imágenes de los mismos que puedan ser utilizadas para interrogar los recursos de información. Interrogación que debería verse complementada por la capacidad de los sistemas de añadir funciones de exploración de los contenidos informativos, durante el proceso de recuperación. El fundamento de los procesos de exploración es la revisión y análisis de documentos por sus contenido, de forma que el sistema sea capaz de llevar al usuario a otras informaciones similares o relacionadas, sin necesidad de formular nuevas ecuaciones de búsqueda.
4.6.4. Los resultados: análisis y modificación.
Una vez considerado todo lo expuesto, y realizada una búsqueda, es de rigor analizar su pertinencia. Una alta pertinencia se caracteriza por la recuperación de los documentos adecuados a la información que se deseaba obtener, evitando la introducción de otros que puedan distorsionar el conjunto, y cumplir los requisitos de una correcta recuperación de la información En sistemas de tratamiento y recuperación de información documental, ésta debe ser exacta, exhaustiva, precisa, oportuna, íntegra y significativa. Por contra, el silencio (falta de documentos) y el ruido (exceso de documentos, muchos de ellos no significativos) caracterizan a un bajo nivel de pertinencia.
Como resultado del análisis anterior, cabe plantearse la adecuación de la respuesta obtenida a lo esperado. Pueden darse dos situaciones, ante las cuales deben adoptarse diferentes acciones. En un primer caso, puede suceder que el resultado de la ecuación sea demasiado escaso. Entonces procede ampliarla, lo cual puede hacerse con la utilización de términos más genéricos, sinónimos, o ampliación de truncamientos. En un segundo caso, si el resultado obtenido es excesivamente amplio, deben utilizarse medidas contrarias: utilización de términos más específicos, reducción de truncamientos, etc.

http://tramullas.com/documatica/4-6.html

Lenguajes de interrogación y ecuaciones de búsqueda

    • Lenguajes
      Cada sistema de recuperación tiene su propio lenguaje de interrogación, que es el que le permite "hablar" en el mismo lenguaje que la base de datos. Este lenguaje como cualquier otro tiene sus propia sintaxis que especifica las características especiales de la búsqueda determinando en cada momento la relación que tienen los elementos de búsqueda. Las reglas gramaticales en el lenguaje de interrogación son los operadores.
    • Cómo plantear una estrategia de búsqueda
      No existen pautas que nos indiquen como hacer con exactitud todas las búsqueda debido a que cada consulta es distinta. Por eso es conveniente definir un procedimiento básico de trabajo:
      • Planteando el tema desde distintos puntos de vista
      • Determinando que se sabe del tema
      • Formulando nuestra búsqueda mediante:
        • La selección de palabras clave que representen lo que busco (utilizar diccionarios, sinónimos, tesauros, ontologías, etc.)
        • La traducción de las palabras importantes a otros idiomas (inglés)
      • Seleccionando las herramientas de búsqueda (índices, motores, metabuscadores). Se recomienda usar distintas herramientas a la vez.
      • Aplicando las palabras clave en las herramientas de búsqueda seleccionadas
    • Ecuaciones simples
      • Ecuaciones compuestas
        • Operadores
          • Lógicos o Boléanos: Permiten convertir las palabras de la consulta en conjuntos matemáticos, y operar con las palabras como si fuesen conjuntos. Las operaciones básicas son la suma (OR), la resta (NOT) y el producto (AND).
            • Y lógico (AND)
            • NO lógico (NOT)
            • O lógico (OR)
          • Posicionales: Permiten especificar la posición de las palabras dentro del documento.
            • Cerca (NEAR)
            • Junto (ADJ)
            • Frases
          • Existencia: Indica cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados.
            • Presencia / Ausencia
            • Ausencia
          • Exactitud: Este tipo de operador se utiliza cuando la consulta que se pretende es menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a su raíz.
            • Proximidad
            • Por campos
        • CCL (Common Command Language)
        • Permite restringir las búsquedas mediante calificadores -es decir, la búsqueda se puede llevar a cabo en campos específicos como Autor, título, etc.- es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva.
          http://www.mariapinto.es/e-coms/recu_infor.htm

        COMPATIBILIDAD ENTRE SISTEMAS DE CLASIFICACIÓN EN DIRECTORIOS COMERCIALES: ESTÁNDARES Y SOLUCIONES TÉCNICAS

        El uso de Internet como herramienta de promoción y como soporte de transacciones comerciales implica la necesidad de identificar información sobre posibles socios comerciales. Con este fin, se han diseñado distintos servicios de directorio, donde las organizaciones pueden dar a conocer su actividad y los productos y servicios que ofertan. A menudo, la descripción que ofrecen estos directorios consisten en breves
        descripciones textuales facilitadas por las propias organizaciones, situación que condiciona al uso de sistemas de recuperación básicos, donde el usuario debe prever de antemano los términos utilizados en la descripción de las organizaciones registradas en estos directorios. Tanto los servicios comerciales como los servicios públicos para la distribución y localización de información sobre empresas, precisan de sistemas de
        recuperación más sofisticados.
        La aplicación de sistemas de clasificación basados en categorías preestablecidas y en el uso de términos controlados ofrece distintas ventajas, entre ellas garantizar la descripción homogénea de los servicios y facilitar al usuario la selección de categorías correctas a la hora de formular sus búsquedas. Por otra parte, los sistemas de clasificación incorporan notaciones para representar clases de forma abreviada e independiente de cualquier idioma en particular, lo que ayuda enormemente en la formulación de consultas en entornos globales donde los usuarios pueden proceder de distintas localizaciones geográficas.


        Universidad Carlos III de Madrid, Biblioteconomía y Documentación,
        C/ Madrid, 126 - 28903 Getafe España, reito@bib.uc3m.es

        Percepción del desempeño en la búsqueda de información en bases de datos bibliográficas de los estudiantes de estomatología

        El manejo de la información es un tema relevante si se considera la gran cantidad de publicaciones científicas acumuladas, que se desarrolla de manera exponencial. Internet se convirtió en el medio más dinámico y estimulante para encontrar y recuperar información biomédica desde la aparición de las bases de datos automatizadas.1 Pocos usuarios conciben hoy día que una revista científica no pueda consultarse en mayor o menor medida por este medio.2
        En el área de la salud, una de las principales bases de datos bibliográficas es PubMed-Medline. En Latinoamérica se dispone de Lilacs, lo mismo que otras fuentes como la Cochrane Library, el Índice Médico Español (IME), Ebsco, ScienceDirect, SpringerLink y Scielo, entre otras.2 Existen también motores de búsqueda generales como Yahoo, Altavista, Google y otros muy populares. Estos últimos, a pesar de su utilidad científica, a menudo arrojan como resultados una serie de documentos que no alcanzan los niveles deseados de la búsqueda, con una marcada deficiencia relacionadas con la calidad de los productos, en relación con las palabras clave utilizadas, lo que facilita en oportunidades la distorsión académica en estudiantes.3,4
        La forma básica para la búsqueda es mediante palabras clave,5,6 y términos controlados como los que ofrecen el MeSH y el DeCS, determinantes en la ejecución de una búsqueda eficiente.7-11 Igualmente, es posible especificar una búsqueda mediante el empleo de operadores lógicos (conjunciones y signos diacríticos), los operadores boleanos "and", "with", "or" y "not", y el truncado, o los llamados límites, que ayudan a restringir los resultados según fechas, idiomas, fuentes, autores y tipo de material, entre otros.
        El usuario debe dominar las bases de datos, lo que significa, entre otros aspectos, la correcta identificación y el empleo de los términos controlados, el uso de los operadores y los límites, de las diferentes facilidades y filtros para la búsqueda, el refinamiento de la búsqueda de acuerdo con el volumen de los resultados, su organización, etcétera. Pero los usuarios no realizan frecuentemente estas acciones de la manera más apropiada. En otras ocasiones, desconocen las facilidades que ofrecen los sistemas y presentan una pobre cultura de la información y, por tanto, carecen de las competencias necesarias para desempeñarse correctamente en la búsqueda y el manejo de la información.12
        Una búsqueda pertinente de datos conduce a información consistente y útil.13 Dominar las herramientas necesarias para hacerlo es una meta cuyo cumplimiento es cada vez más deseable entre los profesionales de la salud,4 quienes al emplear el total de las facilidades que ofrecen medios como las bases de datos pueden actualizar sus conocimientos en general y disponer de la información necesaria para el manejo de sus casos clínicos concretos, establecer un mejor diagnóstico y tratamiento y realizar nuevas propuestas científicas.14,15 ya sea que actúen como terapeutas en clínica o dediquen su tiempo a procesos investigativos.
        Espinoza, Rincón y Chacín, en los resultados de su estudio, realizado con profesores usuarios de Internet, encontraron que a pesar de la gran utilidad que representan los bancos de datos y los catálogos bibliográficos su uso es casi insignificante entre ellos, algo que pudiera ser ocasionado por la carencia de una política adecuada de entrenamiento en función de las necesidades específicas de los usuarios y sus instituciones.16
        De igual manera, González y Santana estudiaron el comportamiento de los alumnos de medicina en la búsqueda de información en Internet. Entre sus observaciones sobresalen que solo el 15 % de ellos utiliza la base de datos PubMed-Medline en su labor de búsqueda, la cual constituye una de las de mayor prestigio internacional en el área de las ciencias médicas, además de que es la única en su sector con acceso gratuito. El análisis muestra también que los estudiantes dejan a un lado el Mesh Browser y tienen preferencia por el buscador Google, lo que los autores consideran preocupante en este nivel educativo.17
        Nos propusimos realizar una valoración integral de los estudiantes seleccionados, en relación con la forma en que manejan las bases de datos para la solución de determinados problemas de información. No existen actualmente datos que describan la situación de los estudiantes en relación con este tema. Desde el punto de vista formativo en escenarios académicos es importante este tipo de investigaciones y de trabajos que facilitan los juicios valorativos y permiten a los docentes identificar las principales necesidades en este aspecto, a partir de una línea de base, que facilite la labor pedagógica, para potencializar los saberes y competencias en el manejo de las bases de datos por parte de los estudiantes de odontología.
        La importancia que aporta al tema de investigación se ve reflejada en la calidad y cantidad de las publicaciones científicas referentes a la temática expuesta, pues se reporta que en la búsqueda bibliográfica a través de bases de datos se detectan diversidad de documentos de alta preponderancia y utilidad que permiten a los estudiantes mantenerse actualizados desde lo investigado y estar al tanto de la redefinición de teorías que permiten reconstruir el conocimiento científico en los diferentes campos de las ciencias. 

        http://scielo.sld.cu/scielo.php?pid=S1024-94352010000100009&script=sci_arttext

        Listas de términos controlados

        La aparición de los primeros tesauros aplicados a la recuperación de información a principios de los años sesenta desplazaron, en gran medida, la utilización de los sistemas de clasificación tradicionales para la indización y la recuperación. Sin embargo, la creciente disponibilidad en los años setenta de bases de datos online puso el énfasis en los sistemas basados en el lenguaje natural, como alternativa a los lenguajes controlados.
        Un tesauro proporciona un lenguaje o un conjunto de términos normalizados que describen un área temática. Aplicado a la indización de una base de datos, indica al buscador qué términos utilizar para recuperar el máximo número de documentos relevantes.
        Los términos del tesauro son utilizados por los indizadores para describir el contenido de las publicaciones con coherencia, amplitud y concisión.En la actualidad parece claro que la naturaleza complementaria del
        lenguaje natural y del controlado, especialmente los tesauros, justificarían la necesidad de disponer de ambos procedimientos para recuperar información. Como señala Lancaster (1995), el modo normal de funcionamiento de un sistema de recuperación de información debe ser el de “búsqueda en dos niveles”, utilizando conjuntamente el lenguaje natural y términos controlado. Ampliar aca -> Documento PDF.

        http://www.francog.com.ar/wp_archivos/2003/11/tesauros_y_listas_de_terminos_controlados.php 

        miércoles, 15 de septiembre de 2010

        Introducción: conceptos fundamentales en Recuperación de Información


        Definición de Recuperación de Información

        Baeza – Yates [1999]: Parte de la informática que estudia la recuperación de la información (no datos) de una colección de documentos escritos. Los documentos recuperados pueden satisfacer una necesidad de información de un usuario expresada normalmente en lenguaje natural.

        Korfhage [1997]:La localización y presentación a un usuario de información relevante a una necesidad de información expresada como una pregunta.

        Salton [1989]: Un sistema de recuperación de información procesa archivos de registros y peticiones de información, e identifica y recupera de los archivos ciertos registros en respuesta a las peticiones de información.

        La recuperación de información se centra en la representación, almacenamiento, organiczacion y acceso a elementos de información. Estos procesos deberían proporcionar al usuario la capacidad de acceder a la información que necesita. Sin embargo existe un problema bastante importante en lo referente a la caracterización de las necesidades de información del usuario, que no suele ser facil de solucionar.

        Ejemplo:

        Sin embargo cualquier necesidad de información expresada directamente en los términos en los que un usuario conversaría con un documentalista no tiene una traducción directa en términos de los sistemas de recuperación de información actuales.

        De esta forma es necesario traducir la necesidad del usuario en una consulta que un sistema de recuperación de información pueda procesar para devolver los documentos pertinentes a dicha necesidad.

        Normalmente una consulta se forma de un conjunto de palabras clave que resume los contenidos de un documento que el usuario intenta recuperar. El papel de un sistema de recuperación de información será entonces el de utilizar la consulta para conseguir la información que mejor satisfaga la necesidad del usuario.

        El proceso de formar una consulta que al mismo tiempo represente bien las necesidades del usuario y sea utilizable por el sistema puede verse obstaculizado por problemas como la ambigüedad del lenguaje natural. Esta ambigüedad puede ser parcialmente resuelta mediante la utilización de lenguajes documentales, pero desafortunadamente estos no cubren todas las posibles necesidades de un usuario cualquiera, y por tanto son aplicables sólo a ámbitos restringidos. Este será no obstante un factor a analizar en el tema de creación de consultas que veremos más adelante.

        Es necesario puntualizar que lo que un sistema de recuperación de información intenta obtener de una colección o una base de datos es precisamente información, y no datos.


        Recuperación de información vs recuperación de datos

        Datos
        Hechos representados en forma legible. Como en las bases de datos relacionales.

        Información
        Datos organizados de forma coherente. Como en los sistemas de recuperación de información

        Conocimiento
        Información que puede ser utilizada para un propósito.

        Diferencias entre Recuperación de Información y Recuperación de Datos

        Criterio                                 Información                        Datos
        Lenguaje de consulta        Lenguaje natural                Lenguaje artificial
        Modelo                                  Probabilístico                       Determinista
        Respuesta                            Relevante(*)                         Adecuada
        Pregunta                              Difusa                                               Completa
        Correspondencia                Parcial                                   Exacta
        Se buscan                            Documentos                        Registros

        La recuperación de datos se basa en determinar qué documentos en una colección contienen las palabras clave expresadas en una consulta. Esto muchas veces no satisface las necesidades de información del usuario.

        La forma en la que se interpretan las consultas en la recuperación de datos es muy estricta, de forma que la aparición de un documento que no incluya los términos expresados en la consulta se considera como un fracaso, mientras que esto no es así en recuperación de información. Esto se debe a que los resultados en RI pretenden ser relevantes y en RD deben ser acertados.

        De hecho las consultas de los usuarios en un sistema de RI pueden ser interpretadas con cierto grado de ambigüedad, lo que genera respuestas con una correspondencia parcial a la pregunta, mientras que en RD las consultas se interpretarán de forma literal y producirán resultados exactos.
        La diferencia fundamental entre ambas alternativas reside en el hecho de que la Recuperación de Información trabaja sobre la base del lenguaje natural, mientras que la Recuperación de Datos trabaja con datos con una estructura y una semántica muy bien establecidas.

        Ejemplo: Base de datos relacional, y base de datos documental

        Para tener éxito en la recuperación de información valiosa para el usuario los SRI deben interpretar los contenidos de los documentos y ordenarlos de acuerdo con la relevancia a la consulta para presentarlos al usuario. Esta interpretación de los documentos implica la extracción de cierta información semántica y sintáctica y su utilización para averiguar el grado de cercanía con la consulta del usuario.

        La forma en que los documentos de una colección se interpretan depende del modelo teórico utilizado, y como veremos en días sucesivos existe una gran variedad de posibilidades. Sin embargo todos esos modelos intentan llevar a cabo una misma tarea, utilizar esa información para averiguar la relevancia de un documento con respecto a una determinada consulta.

        Relevancia y Pertinencia

        Un documento recuperado es relevante cuando satisface una determinada consulta. Una consulta es la expresión de una necesidad de información, pero ambas no son exactamente lo mismo. Un documento puede considerarse relevante si el contenido del mismo posee alguna significación o importancia con motivo de la pregunta realizada por el usuario. Por tanto la relevancia queda asociada con el concepto de la relación existente entre los contenidos de un documento y los contenidos de una consulta.

        Hay todavía un importante debate acerca del significado del término y de la utilidad de dicho concepto a la hora de evaluar la calidad de un sistema, como se verá en el tema sobre evaluación. Un buen artículo acerca de este tema se puede encontrar en:
        http://people.unt.edu/~skh0001/das1 Dagobert Soergel analiza los conceptos fundamentales que ahora expondremos con mucha profundidad, así que es del todo recomendable a este respecto. 

        Según Soergel un documento es pertinente si este es relevante y al mismo tiempo apropiado para una persona en concreto con respecto de una necesidad en concreto. El término apropiado implica que la persona pueda entender el documento y aplicar la información extraída. Por tanto, un documento puede ser relevante para una consulta y al mismo tiempo puede no ser pertinente para un usuario dado porque éste no tenga los conocimientos necesarios para entenderlo, o no esté escrito en un idioma que conozca.
        Se trata de un concepto intrinsecamente subjetivo.

        Por último podríamos hablar de un tercer concepto, que es el de utilidad. Un documento sería util para un usuario si este fuera pertinente y al mismo tiempo aportara conocimiento nuevo al usuario.

        El proceso de recuperación

        Fuente: http//dc.exa.unrc.edu.ar/rio/anteriores/rio05_material/alonso/apli01.ppt

        Lo primero que debemos hacer es definir la fuente de procedencia de la información. Generalmente se tratará de un sistema de gestión de bases de datos, aunque no es la única posibilidad.

        Una vez definida esta fuente de procedencia es necesario llevar a cabo una serie de operaciones sobre el texto que transformarán los documentos en una representación de los mismos, con unas determinadas cualidades y estructura.  Esta representación de los documentos también se denomina vista lógica.

        Una vez hemos transformado los documentos en su vista lógica necesitaremos establecer un índice, una estructura que permite la búsqueda entre ingentes cantidades de los mismos. Uno de los tipos de índices más utilizados es el de los archivos invertidos. La forma en que se construye el índice varía de paradigma en paradigma, pero en general se trata de una tarea de indización automática.

        Una vez hemos disponemos de un índice puede comenzar el proceso de recuperación propiamente dicho.

        En primer lugar el usuario expresa una necesidad de información que se analiza y transforma de acuerdo al mismo procedimiento utilizado con los documentos originales. De esta forma se obtiene una vista lógica de las necesidades de información o, en otras palabras, una consulta.

        Esta consulta puede ser refinada y modificada de acuerdo a un conjunto de operaciones sobre consultas que la transformarán de forma que los resultados finales del proceso mejoren.

        En este momento tenemos las dos partes del problema (la necesidad de información y los documentos) traducidos a términos del sistema, consulta y representación de los documentos, o vista lógica.

        A partir de aquí se puede procesar la consulta y recuperar los documentos más relevantes. Antes de que estos documentos se devuelvan al usuario se ordenarán por su relevancia a la consulta, en una operación que comunmente se denomina Ranking

        http://webcache.googleusercontent.com/search?q=cache:nN2zrgP_Mr0J:www.ucm.es/info/multidoc/apuntesRSJ/tecnicas-avanzadas/tema-1-introduccion.rtf+Relevancia+Recuperacion+de+informaci%C3%B3n&cd=15&hl=es&ct=clnk&gl=co

        Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización

        Resumen

        Se aborda la organización y recuperación de la información desde la perspectiva de la automatización. Así, se trata la indización automática o asistida por computadora, el lugar de la lingüística en la recuperación de la información, la aplicación del paradigma cognitivo a esta área del conocimiento y los diferentes modelos para la recuperación interactiva de la información y la interacción hombre-máquina.
        Palabras clave: Organización de la información, recuperación de la información, automatización.

        Abstract

        The organization and retrieval of information is analysed from the perspective of the automatization process. The automatic or computer-assisted indexing, the role of linguistics in information retrieval, the application of the cognitive paradigm to this area of  knowledge, the different models for the interactive retrieval of information and the human-computer interaction are dealt with.
        Key words: Information organization, information retrieval, automatization.
        Copyright: © ECIMED. Contribución de acceso abierto, distribuida bajo los términos de la Licencia Creative Commons Reconocimiento-No Comercial-Compartir Igual 2.0, que permite consultar, reproducir, distribuir, comunicar públicamente y utilizar los resultados del trabajo en la práctica, así como todos sus derivados, sin propósitos comerciales y con licencia idéntica, siempre que se cite adecuadamente el autor o los autores y su fuente original.
        Cita (Vancouver): Rodríguez Perojo K, Ronda León R. Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización. Acimed 2006;14(1). Disponible en: http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm Consultado: día/mes/año.
        Al delimitar la recuperación como un nuevo espacio para la Ciencia de la Información , orientado a la localización de la información, Calvin Mores , fue el primero en definirlo como un proceso paradigmático de la actividad informativa.
        En 1946, se produjo la invención de las tecnologías computacionales. Estas obtuvieron una aplicación progresiva e inmediata en la naciente esfera, especialmente para solucionar las preocupaciones dominantes sobre cómo localizar y buscar información puntualmente en medio de la llamada explosión documental. Con este objetivo, se impulsó la elaboración de procedimientos que permitieran representar el contenido de un documento, según la riqueza de los sistemas de clasificación e indizaciones existentes.
        Con la intención de asumir el incremento exponencial de la información científica acumulada, principalmente en el área de las ciencias experimentales, a finales de la década de los años 50, ocurre la inserción de la organización en el ámbito de la recuperación de la información en los sistemas automatizados o asistidos por computadora ocurre. Ello se fundamenta en las siguientes razones:1
        • La idea de que una computadora pudiera realizar análisis de grandes volúmenes de texto y, en especial, catalogar, indizar y diseñar tesauros conceptuales de forma repetitiva.
        • La disponibilidad de máquinas capaces de procesar información alfanumérica.
        • El desarrollo, como resultado de los esfuerzos conjuntos entre la naciente inteligencia artificial, la teoría lingüística y la lingüística computacional, que es la aplicación de la ciencia de la computación al conocimiento de la estructura y el significado del lenguaje, con Noam Chomsky al frente.
        • El perfeccionamiento del tiempo de ejecución de estas labores y el ahorro de recursos financieros.
        • La pretensión de evitar que personas que realizaran las diferentes funciones para un mismo documento, pero en momentos diferentes, cometieran errores a la hora de organizar su contenido.
        Estos constituyen algunos de los factores determinantes de la aplicación del análisis semiautomático y automático de textos en los sistemas experimentales de recuperación de información como Cranfield I y II; así como en el Smart de Salton, entre otros.

        Indización automática o asistida por computadora

        Uno de los autores más importantes en el campo de la indización, Jacques Chaumier, definió la indización desde dos puntos de vista: como proceso y finalidad. Desde la primera posición, la indización es la descripción y la caracterización del contenido de un documento, con la ayuda de las representaciones de los conceptos; sin embargo, su fin último es posibilitar la recuperación de la información almacenada en el sistema.2 Es decir, Chaumier, junto con muchos otros autores, considera a la indización como el paso previo para una adecuada recuperación de la información. La definición de automatización de la indización se debe acometer desde una triple perspectiva:2
        • Programas informáticos que asisten en el almacenamiento de los términos de indización, una vez obtenidos de modo intelectual -indización asistida por computadora durante la fase de almacenamiento.
        • Sistemas que analizan los documentos de modo automático, donde los términos de indización propuestos se validan y editan -si es necesario- por un profesional -indización semiautomática).
        • Programas sin ningún tipo de validación, es decir, los términos propuestos se almacenan directamente como descriptores de dicho documento -indización automática.
        A mediados de la década de los años 60, Stevens, definió la indización automática: “como el uso de máquinas para extraer o asignar términos de indización sin intervención humana, una vez que se han establecido programas o normas relativas al procedimiento”.3 En estos momentos, comienzan a distinguirse distintas concepciones, en ocasiones complementarias. Por una parte, se encuentra la aplicación de los métodos no lingüísticos que agrupan esencialmente: a los estadísticos, la atribución de pesos a la información, los probabilísticos y los basados en técnicas de agrupamiento-clustering, álgebra booleana, escalamiento multidimensional) y por otra, los que ejecutan ciertos análisis lingüísticos de los textos, que se enmarcan dentro del estudio del procesamiento del lenguaje natural, una disciplina surgida a finales de los años 50.

        Métodos matemáticos

        En un principio, los sistemas de recuperación de información se sustentaron sobre la base de métodos y técnicas de procesamiento de la información no lingüística. En opinión de Amy J. Warner, profesora colaboradora de la Escuela de Información de la Universidad de Michigan, existen dos formas básicas en las que pueden realizarse las búsquedas en bases de datos a texto completo en los sistemas comerciales disponibles en la actualidad. La primera utiliza una variedad de operadores estructurales, como son los símbolos de truncado y los operadores de proximidad y booleanos, que han estado disponibles desde los primeros días en los sistemas en línea. La segunda forma utiliza la clasificación estadística para ordenar grandes series de artículos recuperados mediante su relación predeterminada con la solicitud, de los más relacionados a los menos relacionados.4
        Todos estos sistemas son y continuarán siendo muy útiles. Sin embargo, son lingüísticamente crudos y se encuentran limitados por dos problemas generales:4
        • Utilizan un mínimo de estructura gramatical de la que se encuentra en el documento original.
        • Continúan descansando en el aparejamiento superficial de los términos claves; por tanto, ocurre una pobre explotación de los elementos significativos de los documentos y las solicitudes.
        Entre esos, se destacan:1,4
        • Estimación de la frecuencia.
        Hans Peter Luhn fue el primero en sugerir que la frecuencia de aparición de los términos en una colección se relaciona con la utilidad de éstos para la indización. Los términos de frecuencia muy alta-aquellos que aparecen en muchos documentos- son muy generales y producen una menor precisión en la búsqueda; mientras que aquellos de frecuencia muy baja son muy específicos y producen una baja exhaustividad. Para Luhn, los mejores términos son los que tiene una frecuencia media, es decir, los que no se presentan en muchos ni en pocos documentos.
        • Estimación de la probabilidad.
        Al mismo tiempo que proliferaba el número de investigaciones aplicadas a la recuperación de la información desde la perspectiva anterior, surgieron otras experiencias dirigidas a examinar varios de los sistemas existentes con el propósito de predecir los posibles términos de indización. Los modelos de probabilidades se aplicaron debido a la necesidad de estimar la relevancia de un documento a una consulta.
        En un entorno operacional, es el usuario quien inspecciona los documentos que entrega el sistema de recuperación de información y quien decide su adecuación; sin embargo, en entornos experimentales, se busca una evaluación de la salida más objetiva. Para ello, se emplean medidas que ofrecen una idea de la calidad de la recuperación: la exhaustividad, que representa la cantidad de documentos relevantes recuperados y la precisión, equivalente a la proporción de documentos recuperados que son relevantes. Entre los modelos probabilísticas, desarrollados en los sistemas de recuperación de la información, se destacan las redes bayesianas, con éxito en los entornos caracterizados por la incertidumbre.
        • Estimación de clases de palabras (clustering).
        Los algoritmos de clustering aplicados a la organización y recuperación de información, agrupan muestras de entrada en una serie de grupos y en contraste con la indización manual, en la automática es un algoritmo el que toma la posición del indizador y se aplica repetidamente a cada documento. Estudian la forma en que se agrupan los términos de indización asignados a los documentos o los propios documentos para revelar la relación que existe entre documentos de materias similares y crear grupos con características comunes. Las técnicas de análisis de clusters y los sistemas de información tienen un mismo objetivo: organizar temáticamente la información almacenada. Basados en el cálculo de la similitud entre pares de objetos, los métodos, básicamente pueden ser de dos tipos:
        • Métodos heurísticos: Son aquellos que dividen un conjunto de documentos en subconjuntos entre los que no existen relaciones jerárquicas, por medio de parámetros que permiten controlar el proceso de creación de los grupos. Entre dichos parámetros se encuentran: el número total de clusters a formar y su tamaño máximo y mínimo.
        • Métodos jerárquicos: Exigen como punto de partida el cálculo de la similitud entre todos los pares de documentos del sistema de información. La construcción de la jerarquía se realiza a partir de: una técnica divisiva, donde los cluster se crean de arriba hacia abajo, grupos con características comunes y luego grupos más específicos y una técnica acumulativa, por medio de la cual se construye, a partir de grupos pequeños, grupos más grandes, de abajo hacia arriba.
        Las metodologías empleadas en la automatización de la indización desde finales de los años cincuenta hasta la actualidad han variado. En los primeros momentos, se utilizaba casi exclusivamente la estadística para obtener los términos de indización representativos de los documentos, pero a partir de los años 80, se incorporaron en las propuestas para la automatización de la indización técnicas de procesamiento del lenguaje natural como herramientas para conseguir las raíces de las palabras, etiquetadores morfológicos, así como analizadores sintácticos, entre otras. Pero lo habitual es que las propuestas o prototipos presentados por los investigadores incluyan una combinación de ambas aproximaciones, es decir, cálculo de la frecuencia y herramientas, más o menos complejas, para el procesamiento del lenguaje natural.

        Lingüística y recuperación de información

        El estudio del procesamiento y la recuperación de información -tanto aplicado como experimental- con enfoques semiautomáticos y automático, pueden utilizar técnicas de la estadística, la lingüística, la psicología y la inteligencia artificial como complemento para el diseño eficaz de sistemas de información. “El debate sobre la relación de la lingüística y la recuperación de información comenzó hace más de veinte años”.4 Los que defienden esta tesis plantean que prevalece una estrecha relación entre ambos campos, así como el criterio de que la “recuperación de información sólo puede progresar si el lugar y la función de la lingüística se comprende con mayor profundidad”.5
        Los investigadores en el área de la recuperación han propuesto el desarrollo de sistemas más interactivos, es decir, que actúen como un intermediario humano. Según plantea Cristine Montgomery, para estimular en algún sentido la ayuda brindada por un colega humano, el sistema de información activo debe tener al menos tres tipos de conocimiento:6
        • Conocimiento lingüístico: Para comunicar y recibir información, conocimiento de los artículos léxicos (palabras, frases), categorías gramaticales (sustantivo, verbo) y relaciones gramaticales (sujeto de, complemento de) que represente el conocimiento lingüístico en los dominios particulares.
        • Conocimiento extra-lingüístico: Conocimiento sobre las entidades, atributos, eventos, procesos y relaciones que conforman los modelos de información para el dominio correspondiente.
        • Capacidad: El sistema debe utilizar el conocimiento lingüístico y extra- lingüístico para alcanzar un objetivo.

        Enfoques del análisis lingüístico en torno a la recuperación de información

        Entre las áreas de estudio que emplean el análisis del lenguaje, las que mayor potencial demuestran para su aplicación en la organización y recuperación de la información son la teoría lingüística y el procesamiento del lenguaje natural.
        La teoría lingüística estudia “el lenguaje con el sólido fin de construir una teoría de su estructura, de sus funciones en un punto determinado y sin considerar ninguna aplicación práctica que pudiera tener la investigación del lenguaje”.7 Por otra parte, el procesamiento del lenguaje natural “es el área de investigación y de aplicación que explora la forma en que el lenguaje natural que entra a un sistema de computación, puede manipularse y almacenarse de forma que preserve ciertos aspectos del original”.8
        El procesamiento del lenguaje natural ofrece dos enfoques al problema del análisis lingüístico mediante la existencia de una equivalencia débil y una fuerte entre el uso del lenguaje humano y el procesamiento de los datos lingüísticos por computadora. El enfoque de equivalencia débil busca desarrollar algoritmos particulares para el procesamiento de los datos y se caracteriza por un fuerte enfoque de manejo. El enfoque de equivalencia fuerte trata de caracterizar la naturaleza subyacente en la computación en particular y sus bases en el mundo físico, frecuentemente conocido como enfoque cognitivo y plantea “que un programa de computación es un modelo de cognición humano”.9

        Procesamiento lingüístico en los sistemas de recuperación de información

        Generalmente los sistemas de recuperación de información comerciales, estadísticos y los que incluyen análisis lingüístico, muestran cuatro niveles orientados al procesamiento de la información desde su estructura superficial hacia la estructura profunda del texto (tabla 1).
        Tabla 1. Tabla comparativa entre sistemas de recuperación de información
        RI: Recuperación de información
        Nivel lingüístico
        RI comercial
        RI estadística
        RI lingüística
        Morfológico
        Símbolo de truncado
        Familia
        Análisis morfológico
        Sintáctico
        Operadores de proximidad
        Frases estadísticas
        Frases gramaticales
        Semántico
        Tesauros
        Grupos de palabras concurrentes
        Red de palabras con relaciones semánticas
        Pragmático
        Búsqueda heurística
        Retroalimentación por relevancia.
        Procesamiento de texto en tópicos
        Como no es nuestra intención realizar un análisis minucioso de cada componente del lenguaje, consideramos pertinente circunscribirnos a tres de ellos relacionados con las nuevas iniciativas puestas en práctica y que apuntan hacia un mejor desempeño de los sistemas de recuperación de información semiautomáticos y automáticos:
        • Nivel sintáctico: Centra su estudio en la función que cada palabra presenta (una oración, párrafo) y las relaciones gramaticales entre estas.
        • Nivel semántico: Un tema común que la recuperación de información incorpora a la semántica -que trata sobre el significado de las palabras- es la capacidad de considerar los conceptos referidos en los textos y no sus simples términos claves, conocida como la recuperación de información basada en el contexto, que sólo puede lograrse por medio de la creación y mantenimiento de bases de conocimientos como los tesauros conceptuales y las “redes semánticas”. Sobre la Teoría de Grafos se ha ideado la noción de la red semántica como una colección de conceptos que pueden ser objetos, situaciones o nociones, así como las relaciones entre ellas y su interpretación. Los nodos que la forman representan los conceptos, mientras que las aristas reflejan relaciones binarias entre los nodos.
        • Nivel pragmático: Se refiere a las regularidades que rigen la elección de un lenguaje de comunicación, de ahí que “existan reglas del discurso coherente y cooperativo que rigen los textos escritos y la estructura de las interacciones entre los individuos”.10 Un sistema automático que incorpora información pragmática del análisis lingüístico es capaz de procesar textos completos y extraer tópicos generales comprendidos, el ejemplo más ilustrativo lo constituyen las redes neuronales artificiales o sistemas expertos.
        Actualmente, proliferan iniciativas dirigidas a la creación de productos y sistemas con el objetivo de facilitar y mejorar el rendimiento de las aplicaciones de recuperación de información en ambientes automatizados por medio de la ingeniería lingüística. Entre ellos, pueden citarse los siguientes ejemplos:
        • Bitext y DTSearch: Ambas son empresas especializadas en la producción de tecnología lingüística que firmaron un acuerdo de colaboración en el cual DTSearch aporta su herramienta Text Retrieval Engine y Bitext la inteligencia lingüística mediante DataLexica. Text Retrieval Engine es un motor de búsqueda e indización, mientras que DataLexica dota de inteligencia a este proceso, y convierte este en algo sencillo e intuitivo, a la vez que proporciona una cobertura máxima y elimina el ruido. La posibilidad de incluir inteligencia lingüística a la recuperación de información mejoraría el rendimiento de los actuales buscadores -tanto en precisión como en exhaustividad. Están especialmente pensados para la gestión de información y el conocimiento en intranet, extranet e Internet.
        • UIMA (Unestructured Information Management Architecture): Es un proyecto de la empresa de tecnologías de la información IBM. Propone aunar diferentes aproximaciones a la inteligencia artificial en el ámbito de la recuperación de información y la web semántica, donde se utilizará desde el cálculo estadístico de la relevancia de las respuestas de Google, XML y RDF, hasta técnicas del procesamiento del lenguaje natural.
        Naturalmente, la aplicación de diferentes técnicas para el análisis de los flujos de información, sean lingüísticas, matemáticas o ambas, suponen un nuevo reto para los profesionales de la información desde otra arista: el usuario. La falta de adecuación del modelo tradicional para la recuperación de información desde sus inicios, impulsa a considerar distintas propuestas de implementación dirigidas a construir un modelo teórico general orientado a la recuperación de información, en favor de mejorar la interacción entre el usuario y los sistemas de información en ambientes automatizados.

        El paradigma cognitivo aplicado a la recuperación de información

        Desde finales de la década de los años 70 y principios de los 80´, es posible identificar dos tipos de estudios en la recuperación de la información:
        • Aquellos, centrados en los sistemas automatizados propiamente dichos (paradigma físico).
        • Aquellos, centrados en los usuarios que acceden a los sistemas interactivos (paradigma cognitivo).
        “Ambos enfoques estudian la recuperación de información, pero con perspectivas diferentes”.11 La falta de adecuación del modelo tradicional a las nuevas necesidades impuestas por un proceso de recuperación de información de carácter interactivo y en constante retroalimentación entre el usuario y la computadora, motivó el surgimiento de una comunidad científica orientada al estudio e investigación de un “Paradigma cognitivo de la recuperación de la información”, en el que el usuario se ubica en el centro de todo el proceso.
        En los primeros precedentes explicativos de la recuperación de la información se notaba más preocupación por recuperar documentos físicos que por recuperar la información que contenían”.12 El modelo cognitivo integra lo que constituye la base del modelo tradicional y origina lo que Peter Ingwersen, denomina “Teoría cognitiva de la recuperación de la información”: “un intento de globalizar la recuperación de la información por medio de la representación de todos sus componentes como representaciones estructurales con distintos niveles de complejidad que cooperan en un proceso de comunicación interactivo”.13
        En este modelo, se consideran factores vinculados con la recuperación interactiva de la información de carácter subjetivo y contextual de cada individuo (usuario) como pueden ser: su estado de ánimo, áreas de interés, grado de motivación, entre otros, en el que resulta de interés conocer cómo estos interactúan para generar una necesidad de información o lo que Belkin, Oddy y Brooks denominaron un “Estado anómalo del conocimiento ( Anomalous State of Knowledge o ASK)”.14 Asimismo, el problema de la recuperación interactiva de la información-que es como se define en el modelo cognitivo- se ha tratado desde diferentes perspectivas a pesar de su corta historia, entre las propuestas más destacadas, se encuentran”:15
        • El modelo global de poli-representación.
        • El modelo episódico.
        • El modelo estratificado.
        • El modelo de retroalimentación interactivo.
          Modelo global de poli-representación
        Se nutre de las representaciones de las consultas y los documentos, así como de la aplicación de diferentes técnicas en el proceso de recuperación de información. Ello se debe a dos elementos que se manifiestan durante el proceso de recuperación interactiva de la información: uno, la recuperación interactiva de la información es tan compleja y abstracta que cualquier representación o técnica que se emplee no logra abarcar toda la complejidad de la interacción sistema-usuario, entonces se requiere del uso de disímiles técnicas de representación y recuperación.
        Dos, se basa en el modelo probabilístico de Robertson, que plantea que “cuantas más pruebas o evidencias existan sobre la consulta, los documentos y las relaciones entre ellos, mayores serán las probabilidades de que los resultados se adecuen a la necesidad de información del usuario”.16 De aquí, que Peter Ingwersen, se base en la idea de la redundancia intencional y las redes de inferencia de Turtte y Croft, para proponer un sistema de poli-representación de la recuperación de la información como complemento del modelo práctico.
        Modelo episódico
        Denominado así por Nicolas Belkin , define el conjunto de interacciones que se producen entre el usuario y el sistema durante la consulta, de forma similar al intercambio que se producía entre él y el intermediario de una base de datos, en un principio, para “conceptuar, etiquetar y transcribir la necesidad de información, así como emitir juicios de relevancia sobre uno o varios documentos”. Los componentes que integran dicho modelo son los mismos que se utilizan en el modelo tradicional:14,17
        • Técnicas de navegación (browsing).
        • Técnicas consulta (querying).
        • Técnicas de visualización.
        • Técnicas de indización.
        • Técnicas de representación y equiparación.
        Sólo que se presta muy poca atención a la estructura de los documentos y su recuperación, y se centra en el estado anómalo del conocimiento del individuo, cómo representarlo y cómo recuperarlo, es decir, este sistema se basa en el almacenamiento, la recuperación y la interacción de las estrategias de búsqueda.
        Modelo estratificado
        Tefko Saracevic , toma como referencia la estructura de la teoría estratificada de la lingüística y la comunicación, adopta y adapta modelos y técnicas de los sistemas e investigaciones existentes sobre la recuperación interactiva de la información. Uno de sus objetivos fundamentales es localizar e identificar los procesos de búsqueda de información de los usuarios para incorporarlos al diseño de interfaz como garantía para el éxito de la interacción entre sistema y el usuario.18
        Para Saracevic, la recuperación de la información es uno más de los procesos que integran la interacción hombre-máquina (IHM); considera que esta y la recuperación interactiva de la información son lo mismo y adopta la definición de GA Storrs para la IHM: “(...) el intercambio de información entre participantes, con el objetivo de cambiar el estado de conocimiento propio o del resto de los participantes”.19 Pero intenta ir más allá y modifica la definición anterior de IHM para entenderla como: “(...) un diálogo con el fin de cambiar el estado de conocimientos de uno o más participantes”.18
        Modelo de retroalimentación interactiva
        Uno de los principales problemas de los sistemas interactivos durante años fue entender la interacción como un proceso inherente al sistema de recuperación de la información. Una vez establecida la interacción entre el hombre y la máquina, no se especifica de forma clara qué elementos y procesos permiten la interacción entre los dos extremos del sistema de recuperación de información.
        Amanda Spink, propone que el principal responsable de la interacción, tanto en el modelo tradicional como en el interactivo, es la retroalimentación como aspecto no siempre ligado al concepto de relevancia, sino a la generalidad de elementos que permiten la interacción entre el sistema y el usuario. Sobre esta base, Spink identificó, en un estudio aplicado a una muestra de 40 usuarios reales, con necesidades informativas reales y 4 intermediarios para responder a sus consultas, los siguientes tipos de retroalimentación:18
        • Retroalimentación por relevancia de contenido.
        • Retroalimentación por relevancia de términos.
        • Retroalimentación por magnitud de respuestas.
        • Retroalimentación por revisión de consultas anteriores.
        • Retroalimentación por revisión de términos.
        Una vez identificados y descritos los elementos sobre los que recae el peso de la retroalimentación, la autora de la investigación se basó en el modelo de recuperación interactiva de la información propuesto por Saracevic, y contempló sus distintos niveles de interacción. En síntesis, “un proceso de búsqueda interactivo puede estar formado por una serie de estrategias de búsqueda, construidas por una o más iteraciones y uno o más ciclos de retroalimentación interactiva”, 18 de los tipos descritos anteriormente.
        Los inconvenientes de estos modelos no son pocos, debido a que:
        • Se limitan a realizar una aproximación prácticamente teórica a las necesidades de información de los usuarios desde diferentes ángulos, carentes de todo tipo de desarrollo práctico en los entornos del usuario.
        • Se centran excesivamente en el usuario sin considerar que las conclusiones a las que llega corresponden a cada individuo concreto objeto de estudio, difícilmente extrapolables a un grupo más amplio de individuos.

        Interacción hombre-máquina

        “A partir de la explosión tecnológica ocurrida durante los años 70, se hizo necesaria la comunicación directa entre el hombre y las computadoras. Del estudio de este fenómeno, surgió una nueva área estudio: la interacción hombre-máquina (Machine Men Interaction) o más específicamente HCI (Human Computer Interaction)”.20
        La Association for Computer Machinery (ACM), una organización internacional de investigadores y profesionales interesados en todos los aspectos de la computación, junto a su grupo especial en temas de la IHM denominado SIGHI (Special Interest Group in Computer Human Interaction), propusieron la siguiente definición para esta nueva área del conocimiento: “Es la disciplina relacionada con el diseño, evaluación e implementación de sistemas informáticos interactivos para el uso de seres humanos y con el estudio de los fenómenos más importantes con los que se relaciona”.21
        Sobre esta base, puede afirmarse que el tema principal de esta disciplina está en la interacción y más específicamente en la interacción entre uno a más usuarios y una o más computadoras. Pero, entre el usuario y una computadora existen un conjunto de factores que actúan como mediadores a lo largo del proceso de interacción:
        • Las computadoras pueden formar parte de monitores de autos, teléfonos móviles, libros electrónicos, sistemas de realidad virtual, etcétera.
        • El usuario puede tener su visión o movilidad disminuida y utilizar software de lectura de pantalla o de reconocimiento de voz para el manejo de la pantalla.
        • Los usuarios pueden formar parte de grupos u organizaciones, y necesitan, por tanto, interfaz para sistemas distribuidos o de trabajo cooperativo.
        La IHM puede abordar todas estas situaciones, ella se ocupa, en síntesis, del análisis y diseño de interfaz para la relación hombre-máquina, conocidas como interfaz de usuario. "La IHM puede analizarse en función de su estilo, estructura y contenido:
        • Estilo: Se refiere a la forma en que el usuario introduce y recibe información-distribución de los comandos, menús de selección.
        • Estructura: Se relaciona con la forma de organizar los componentes-distribución de los comandos en pantalla o de los campos en un formulario.
        • Contenido: Aborda los significados semánticos y pragmáticos que se producen mediante el diálogo."20
        La interacción hombre-máquina como área interdisciplinaria
        La IHM surgió como un campo entrecruzado de disciplinas: gráficos por computadora, sistemas operativos, ergonomía o factores humanos, ingeniería industrial, psicología cognitiva e ingeniería informática, conocida en sus inicios en el mundo anglosajón como Computer Science. La interacción hombre-computadora se desarrolla dentro del contexto social y organizacional en el que se requieren distintos tipos de aplicaciones para distintos propósitos.
        A principios de los años 80, los sicólogos comenzaron a interesarse en diversos aspectos del procesamiento de la información y del diseño de sistemas de información; emergió así, por ejemplo, el estudio del diseño de los menús. A mediados de los años 80, la usabilidad de los sistemas monousuarios cobró fuerzas como respuesta a la explosión de las PCs (Personal Computers). Hacia finales de esta década e inicios de los años 90, la tendencia se centró en las potentes estaciones de trabajo multiusuario, con énfasis en las comunicaciones más avanzadas, las aplicaciones multimedia y la realidad virtual. El estudio de la IHM precisa de diversas disciplinas; unas vinculadas a los aspectos humanos, otras a las tecnologías y otras en ambos sentidos.
        En el caso de la Informática , que comprende el estudio, tanto la parte física como la programación de la computadora, su finalidad es producir máquinas más rápidas y potentes. Su vinculación con otras áreas del conocimiento como la ingeniería y el diseño industrial genera estudios preliminares en diversos aspectos relacionados con la adaptación del software y el hardware al entorno de usuario:
        • La generación de gráficos por computadoras (gráficos interactivos): Nacen con el uso de los monitores de rayos catódicos (CRT). Esto conlleva a que se desarrollen varias técnicas de IHM, algunas de las cuales marcaron el inicio de los gráficos por computadora como disciplina, datan del año 1963 de la tesis doctoral de Ivan, Shutherland, realizada en el MIT: “Sketchpad”. Sketchpad era un sistema de manipulación directa de objetos gráficos que soportaba la manipulación de objetos gráficos mediante un lápiz óptico, permitía escoger los objetos, moverlos y cambiarles el tamaño con ciertas restricciones. Se produjo en los laboratorios Lincoln con el soporte de las Fuerzas Aérea y la NSF. El trabajo dentro de esta disciplina ha continuado con el desarrollo de algoritmos y hardware que permitan la manipulación y representación de objetos más realistas (CAD/CAM - Computer Aided Design/Computer Aided Manufacturing), así como el desarrollo del ratón (mouse), los dispositivos de mapa bits (bitmapped displays), las ventanas (windows), la metáfora de escritorio y los editores Paint & Clic.
        • Sistemas operativos (sistemas de gestión de interfaz de usuario y kits de herramientas de la interfaz de usuario- toolkits): El trabajo en los sistemas operativos desarrolló técnicas para las interfaz de los dispositivos de entrada/salida, técnicas para el tunning del tiempo de respuesta del sistema frente al tiempo de interacción humana, técnicas de multiproceso y técnicas para soportar entornos de ventanas y animación en tiempo real.
        En cuanto al factor humano, "la psicología cognitiva se ocupa del estudio del comportamiento humano y el proceso mental que implica. En la IHM es importante atender a aspectos como la percepción, la atención, la memoria, el aprendizaje, el pensamiento y la solución de problemas. Los primeros estudios se interesaron en saber cuánta información podía procesar y recordar el hombre pero, actualmente, se centra más bien en el modo de trabajo de las personas con los demás y con las máquinas."20
        • "Ergonomía o factores humanos: Esta disciplina, llamada Ergonomía en Europa y Factores Humanos en Estados Unidos, nació durante la segunda guerra mundial con el objetivo de diseñar armamento militar cómodo de utilizar. En los años 60, comenzaron a realizarse estos estudios en el ámbito de la informática con el propósito de diseñar interfaz de pantalla. Se basa en potenciar la calidad de uso de los objetos, en maximizar la comodidad y la eficiencia para hacer más fáciles las tareas, aumentar el confort y la satisfacción."20
        "Para mejorar la IHM se ha hecho especial énfasis en el hardware (monitores, teclados y otros periféricos) y en aspectos del software que afectan a la psicología como son: la legibilidad de la pantalla, los colores, las texturas de las fuentes y gráficos. La Organización Internacional de Normalización (ISO) ha creado varios comités para la elaboración de normas sobre ergonomía, entre los que se encuentra el TC 159 que se ocupa de la ergonomía en general y se estructura en cuatro subcomités:
        • El TC 159/ SC1: Que se ocupa de los principios de la ergonomía y consta, a su vez, de tres grupos de trabajo: el WG1 que estudia el diseño de sistemas de trabajo, el WG2, para trabajo mental y el WG3 para la terminología.
        • El TC 159/ SC3: Dedicado a la antropometría y la biomecánica.
        • El TC 159/ SC4: Orientado al tema de la ergonomía en el entorno físico, también cuenta con diferentes grupos de trabajo, entre los cuales se destaca el WG5, encargado del diseño centrado en el hombre y los sistemas interactivos.
        • El TC 159/ SC5: Especializado en la ergonomía de la IHM.
        • La ISO 9241: Dedicada a normativas sobre diseño e interactividad."20
        "En cuanto a la lingüística, la aplicación de las teorías lingüísticas a la IHM permite dotar a la interfaz en lenguaje natural de una sintaxis y una semántica sobre la base de la inteligencia artificial. Una actividad concreta en la automatización de diversos aspectos lingüísticos es la denominada industria de la lengua, que surge del procesamiento automático del lenguaje natural y que se vincula fuertemente con la inteligencia artificial. En estos estudios, se investiga en la generación y síntesis de voz, los sistemas de indización automáticos, los sistemas terminológicos y los de traducción por computadora."20
        Otro campo de marcado interés para los estudios y la aplicación de la IHM es, sin duda, "la inteligencia artificial, que se ocupa del diseño de programas informáticos inteligentes que simulan aspectos del comportamiento humano, especialmente para la solución de problemas."20 La IHM se ha aplicado en el desarrollo de sistemas expertos con interfaces inteligentes para codificar y automatizar el conocimiento de personas experimentadas en dominios concretos del saber. Para su creación es necesario "conocer cómo trabaja una persona especializada en determinada materia, observarla y pedirle que indique cada regla para la toma de decisiones."20
        Los sistemas expertos están diseñados sobre la base de los lenguajes de programación-como Lisp y Prolog- basados en datos y reglas de inferencia del lenguaje. El conjunto de datos se especifica en forma de bases del conocimiento (Knowledge Base). Sus componentes fundamentales son:
        • "Una base de conocimientos: Comprende el conocimiento factual (de datos) e inferencial (de reglas) que se introducen en el sistema con la ayuda de expertos en la materia.
        • Un motor de inferencia : Son reglas y principios que se aplican de forma consistente para asegurar que el sistema sea estable y predecible; lo más difícil de precisar es cuáles deben aplicarse y en qué orden.
        • Interfaz de usuario: Debe estar preparada para recibir datos y añadirlos a la memoria de trabajo durante la sesión; puede explicar la decisión adoptada según la lógica seguida.
        Los sistemas expertos aplicados al área bibliotecaria, pueden utilizarse en la catalogación, indización, búsqueda en bases de datos, préstamo interbibliotecario y combinarse con el resto de las áreas que abarca la inteligencia artificial."20

        Consideraciones finales

        Tanto la organización como la recuperación de información, son áreas de la Ciencia de la Información que pueden beneficiarse de los estudios e investigaciones sobre la IHM para ofrecer a los usuarios interfaz que faciliten su trabajo. El estudio de otros procedimientos como la navegación (browsing), la asignación de vectores y las técnicas de agrupamiento (clustering), constituyen algunas vías para solucionar los problemas de organización de información dentro de los sistemas de recuperación de información en ambientes automatizados y, específicamente, en la Web actual. 

        http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm
        Licencia de Creative Commons
        Manual de Alfresco by Claudia Marcela Torres is licensed under a Creative Commons Attribution-ShareAlike 2.5 Colombia License.
        Based on a work at www.alfresco.com.
        Permissions beyond the scope of this license may be available at http://creativecommons.org.