Recuperación de Información | Sistemas de Información y Documentación | Universidad de la Salle

U. de la Salle

Eres el visitante No.

Reproducir Video en Nueva Ventana

jueves, 26 de agosto de 2010

La indización


Indización es el procedimiento que produce entradas en un índice.
Indización es el proceso de análisis del contenido informativo de registros de conocimiento (documentos) y la expresión de ese contenido en el lenguaje del sistema correspondiente.
Indización es la operación que tiene como propósito representar los resultados del análisis documental de un documento por medio de términos extraidos de un lenguaje documental.
Se pueden apreciar dos ideas básicas:
  • El objetivo de la indización es representar (expresar, describir o indicar) el contenido (temas, características) de un documento.
  • El proceso de indización tiene dos componentes: (a) análisis de contenido para seleccionar los conceptos que representarán los documentos; y (b) traducción o expresión de los conceptos seleccionados en el lenguaje utilizado por el sistema.
Por lo tanto hay que estudiar primero de qué trata el documento para extraer los conceptos y aplicar una estrategia de indización que permita traducir los conceptos. Esta estrategia debe tener en cuenta los puntos siguientes:
  • Fuentes de procedencia de los términos: Tesauro, vocabularios, lenguaje natural.
  • Especificidad: ¿Cuán específico debe ser un indizador al traducir un concepto a un término índice? ¿Debe el término seleccionado ser tan específico como el concepto? o ¿debería utilizarse uno más amplio? Por ejemplo: Un documento trata sobre los perros de raza Cocker Spanniel, pero se puede pensar que este término es demasiado específico para el sistema y entra en el índice con el término Perro, más amplio. Evidentemente esto depende del sistema documental, porque si se tratara de una base de datos sobre perros el término de entrada adecuado sería el primero.
  • Ponderación: ¿Se puede expresar de alguna manera la importancia relativa de un concepto en un docuemento?
  • Precisión: ¿Qué grado de precisión debe tener la traducción? ¿Qué hacer cuando no hay un término adecuado?
  • Grado de coordinación: ¿Deben utilizarse términos simples o términos compuestos? Por ejemplo, el término Educación Infantil puede ser equivalente a la combinación de términos Educación e Infancia, cada uno de ellos por separado y combinables en la búsqueda.
  • Exhaustividad: ¿Todo debe ser indizado?.
Objetivos y funciones de un índice.
  1. Identificar y localizar información potencialmente relevante en el documento o la colección indizada.
  2. Discriminar entre información sobre un tema y simples menciones al tema.
  3. Excluir menciones al tema que no aporten nada significativo a un usuario potencial.
  4. Analizar los conceptos tratados en el documento para proponer encabezamientos (entradas) adecuados basados en su propia terminología.
  5. Indicar relaciones entre temas.
  6. Agrupar o reunir materiales separados en la colección.
  7. Organizar encabezamientos y subencabezamientos y modificadores en entradas del índice.
  8. Dirigir al usuario hacia términos válidos por medio de reenvíos del tipo USE o Véase.
  9. Sugerir al usuario de un tema que vea también otros por medio de reenvíos como Véase también.
  10. Organizar las entradas en un orden sistemático que ayude al usuario.
La operación de Indización.
La indización comporta las operaciones siguientes:
  • Planteamiento de objetivos: Contexto de trabajo.
  • Conocimiento del contenido del documento.
  • Elección de conceptos a representar: Selectividad (Retener aquellos conceptos sobre los cuales el documento aporta información susceptible de utilizar alusuario) Exhaustividad (Todos los conceptos útiles deben ser extraidos). El criterio principal de selección es el valor potencial del concepto escogido como elemento de expresión del tema del documento de cara a su recuperación.


Fenómeno: electricidad, lluvia ácida


Objeto: avión, trenes de cercanías


Documento legal: ley, sentencia


Materia: análisis documental, agricultura,
¿Qué?

estudio de..., cálculo de...



Arquitectónica: La Alhambra

Materia
Obra
Literaria: La Odisea
¿Cómo?


Pictórica: La rendición de Breda


Proceso: Envejecimiento de la población


Cualidad: esfuerzo, optimismo


Propiedad: Flexibilidad, endurecimiento


Materiales: Cuero, polietileno






Político: Napoleón


Personaje
Artístico: Jorge Luis Borges
¿Quién?
Personalidad

Ficticio: el Capitán Haddock


Entidad: el Atlético de Madrid; Zara





Día: 14 de abril de 1912
¿Cuándo?
Tiempo
Año: 1789


Siglo: XVI


Período: Holoceno, Años 60, 1936-1939





Continente: Asia


Conjunto de países: Mercosur


País: México


Estado o provincia: Baviera
¿Dónde?
Lugar
Ciudad: Siena


Barrio: Prosperidad


Calle: Corredera Alta de San Pablo


Río: Bidasoa


Cadena montañosa: Sierra Madre


Comarca: El Maresme


Mar: Mediterráneo





 
  • Verificación de la pertinencia de los conceptos extraidos.
  • Traducción de los conceptos escogidos al lenguaje documental del sistema. Los conceptos deberán traducirse por entradas del mismo nivel de especificidad o superior. Si el concepto es compuesto y existe la opción deberátraducirse por una entrada compuesta.
  • Verificación de la pertinencia de los términos obtenidos planteándolos como términos posibles de interrogación y valorando si el documento es pertinente.
  • Formalización de la descripción si el sistema prevé algún tipo de regla.
 
Tipología de índices:
Índices libres basados en palabras del texto: Son índices cuyas entradas están conformadas por palabras derivadas del texto mediante métodos extractivos. La tarea principal del analista es identificar las palabras candidatas a formar parte del índice.
  • Índices de documentos individuales
  • Índices de colecciones de documentos
  • Índices esquemáticos
  • Índices de palabras y nombres (concordancias)
  • Índices permutados KWIC, KWOC, KWAC
  • Índices de unitérminos (Taube)
  • Índices de citas
Índices controlados basados en conceptos. Proceso intelectual de análisis comprensión de contenidos y traducción a lenguaje documental. Requieren el uso de un tesauro u otro lenguaje documental.
Indización mediante descriptores.
El método de indización por descriptores se basa en la suposición de que los contenidos semánticos (las materias o temas) de un documento pueden expresarse con suficiente precisión por una palabra o conjunto de palabras que cumplen una función nominativa. Estas palabras-clave o descriptores actúan de forma independiente y pueden combinarse entre sí utilizando los operadores lógicos booleanos. Generalmente se ofrecen en sistemas poscoordinados y suelen utilizar un tesauro.
Operadores lógicos:
  • Intersección: la intersección de dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer a ambos conjuntos. Si tenemos el conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor LEGISLACION. La intersección entre ambos estará integrada por documentos que contienen ambos luego tratarán sobre Legislación cinematográfica. La intersección se suele expresar con los operadores siguientes:
CINE AND LEGISLACION
CINE Y LEGISLACION
  • Unión: La unión de dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer a uno, otro o a los dos. Si tenemos un conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor TEATRO, el resultado será un conjunto integrado por todos los documentos de Cine y todos los de Teatro. La unión se suele expresar con los operadores siguientes:
CINE OR TEATRO
CINE O TEATRO
  • Diferencia: La diferencia entre dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer al primero pero no al segundo. Si tenemos un conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor ESPAÑA el resultado será un conjunto integrado por todos los documentos de Cine, menos los de Cine español. La diferencia se suele expresar con los operadores siguientes:
CINE NOT ESPAÑA
CINE NO ESPAÑA

Los descriptores son palabras o grupos de palabras incluidas en un lenguaje documental y escogidas de entre un conjunto de términos equivalentes para representar sin ambigüedad una noción contenida en un documento o en una petición de búsqueda documental. (Véase también el tema de los Tesauros)
Descriptor unitérmino o simple: Descriptor que representa un concepto mediante una sola palabra: CINE, OCIO, HIERRO, AUTOMOVIL
Descriptor sintagmático o compuesto: Descriptor que representa un concepto utilizando más de una palabra (un sintagma nominal o preposicional): COMUNICACION SOCIAL, PARTIDOS POLITICOS, MEDIOS DE TRANSPORTE, EMPRESA PRIVADA.
Descriptor primario: Término o conjunto de términos que representan un concepto de manera unívoca. Es significativo, relevante y no hay posibilidad de ambigüedad en su sentido, pudiendo aparecer aislado sin necesidad de aclaración. Cualquiera de los citados en las categorías anteriores es así.
Descriptor secundario: Descriptor que necesita ir acompañado de otros descriptores para expresar un significado preciso: ANALISIS, EVALUACION, CONCEPTO, TEORIA.
Descriptor temático: Representa cualquier contenido disciplinar.
Descriptor geográfico: Representa todo tipo de conceptos vinculados con lugares y sitios.
Descriptor onomástico: Representa un nombre de persona o de institución.
Descriptor cronológico: Representa períodos de tiempo o fechas.


viernes, 20 de agosto de 2010

El proceso y las técnicas de recuperación de la información de archivo

Analizar el proceso que va desde la necesidad concreta que tiene un usuario de archivo hasta el o los documentos que realmente consulta es analizar una carrera de obstáculos, una carrera que solo en ocasiones alcanza llegar a su meta. En muchas ocasiones las responsabilidades sobre el éxito o fracaso de tal carrera se atribuyen exclusivamente a la habilidad –o torpeza– del usuario, o a la habilidad –o torpeza– del archivero, obviando de esta manera un análisis mucho más estricto, que es el que realmente nos puede permitir encontrar las claves del éxito o del fracaso. La necesidad de este análisis se acentúa en la medida en la cual el contacto directo entre el usuario y archivero se hace más lejano. Y esta es, cada vez con más frecuencia, la situación que se produce en los archivos, bien porque los servicios permiten la consulta de los instrumentos descriptivos a distancia, bien por las limitaciones de personal de muchos de nuestros archivos, o por el natural reacio de muchos investigadores a transmitir sus necesidades de información al archivero.
La eficacia en la recuperación de la información en los archivos es el resultado de un contraste. El contraste entre la suma final de las decisiones tomadas en el proceso de descripción por parte del gestor de información, el archivero, y la suma final de las decisiones tomadas por el usuario en el momento de hacer la consulta. Se puede seguir un sencillo esquema de análisis basado en la descomposición e identificación de los diferentes elementos que intervienen en esta recuperación de la información, analizando los elementos responsabilidad del archivero, y los que son responsabilidad del usuario. Este esquema nos servirá para un análisis del estado de situación de la recuperación de información en los archivos en la actualidad, y para plantear algunas proyecciones de futuro. El modelo conceptual de los sistemas de recuperación de información está formado por los siguientes elementos13: las unidades documentales, las necesidades de información, la representación de las unidades documentales, la representación de las necesidades de información y la comparación de estas representaciones. De manera gráfica el proceso es el siguiente:
 Revista Catalana d’Arxivística

La recuperación de la información en la política de gestión de archivo

En este comienzo de siglo se han combinado diferentes factores, externos e internos a los propios archivos, que exigen replantearse una y otra vez las formas de recuperar la información archivística. Estos factores
hacen que esta función se haya convertido en una de las claves más importantes de los servicios de archivo entendidos no solo como custodios de una documentación sino, y sobre todo, como servicios atentos a las necesidades de sus usuarios. No parece, por el contrario, que la mayoría de los archivos hayan modificado sus estructuras para adecuarse a estos cambios, lo que constituye, como poco, un indicador de la falta de análisis permanente de la política de gestión del archivo por parte de los servicios.
Factores externos que han madurado ya como la democratización en el acceso a los archivos, y la mejora en la capacidad de reproducir los documentos –al principio en papel o soportes fotográficos, luego, y coexistiendo con los anteriores, en soportes digitales–; y sumado a ellos, un factor más reciente pero extendido con una asombrosa rapidez, la expansión de los recursos informáticos para el tratamiento de la información de cualquier tipo, han modificado el modo de hacer el trabajo diario de los servicios de archivo, tanto por la capacidad de tratar masivas cantidades de información, como porque esta sea consultada de manera ágil, y más recientemente, incluso a distancia por la capacidad de permitir ese tratamiento y consulta vía Internet.
La normalización de la descripción archivística constituía un factor interno pendiente en el ámbito de los archivos, y ha sido el punto de atención de los archiveros hasta hace muy poco tiempo. Una vez resuelta esta cuestión la recuperación de la información queda accesible al análisis, cosa que anteriormente, por la dispersión de esfuerzos y soluciones a la hora de definir la descripción se hacía imposible. Por medio de normas como ISAD (G), ISAAR (CPF) o EAD, disponemos de un formato normalizado sin el que nunca se hubiese podido plantear una política de análisis y recuperación de información bien delimitada. La existencia de la norma nos exige replantear una recuperación de información que debe, por ejemplo, ser capaz de expresar el concepto de descripción multinivel de manera inteligible para los usuarios. O enviar y reenviar a los usuarios a través de información que describe por una parte documentos o grupos de documentos, por otras instituciones, por otra nombre de personas o lugares... y todo ello sin perderse.
Esta combinación de factores supone un “cierre del circulo”. En estos momentos, y por pura acumulación de razonamientos, cualquier ciudadano se siente sujeto de derecho para conocer de la existencia de un
documento por medio de un sistema de información ágil y a distancia; para consultarlo in situ o en su entorno personal a través de una copia; para, incluso, solicitarlo sin llegar a pisar nunca el servicio de archivo
donde se le atiende; y –no hacen falta grandes dotes adivinatorias– para que en un futuro pueda pretender consultar la imagen de ese documento en tiempo real desde el lugar en el que se encuentre. Si, además de
ello, este ciudadano forma parte de la misma organización a la que  tiende el servicio de archivo aún serán mayores las exigencias. Podríamos resumir esta situación como la expresión de una contradicción,
la intermediación entre el documento y el usuario se va haciendo cada vez “menos personal” y por el contrario queremos que sea más personalizada. Solamente una buena definición de los sistemas de recuperación de información puede resolver esta contradicción. ¿Pero, han sabido responder los archivos a este reto? ¿Han sabido adecuar sus sistemas de información a estas nuevas circunstancias? Un análisis de la situación de los sistemas de información de archivos deja bastante claro que en ciertas áreas geográficas, sobre todo en la Europa latina, los archivos han sido poco ágiles en el aprovechamiento
de las nuevas tecnologías. Cuando las han utilizado lo han hecho casi exclusivamente aplicándolo a los procesos de descripción, de gestión de los ingresos en archivos históricos y administrativos, y a los procesos de préstamo y control de usuarios, siendo pocos los casos de experiencias de informatización integral de los servicios de archivo. Además en muchos casos las posibilidades de utilización de este recurso tienen un carácter de uso interno, y en muy pocos casos los usuarios los pueden utilizar como una forma de consulta directa. En lo relativo a la recuperación de información esta realidad es muy patente y requiere un decisivo cambio de paso por parte de muchos responsables de los servicios de archivo, un salto de una gestión dirigida a satisfacer necesidades internas a una gestión en función de las necesidades externas.
No es de recibo que, por ejemplo, grandes archivos implanten costosos sistemas de control del préstamo sin que, en paralelo, no se haya hecho nada por facilitar la localización y el acceso a la información que custodian. Se podrá argumentar que los servicios de archivo no disponen de los medios económicos y humanos para llevar adelante estas tareas. Pero, parece claro, ha existido en paralelo a esta falta de recursos una falta de capacidad de reestructuración de los medios económicos y humanos de que disponen muchos servicios de archivo. Al contrario de lo que ocurre con el formato de descripción, en la recuperación no hay “recetas” únicas, cada servicio de archivo requiere un análisis diferenciado y la adopción de una política determinada; incluso esta política puede, y en ocasiones debe, ser diferente en los  diferentes fondos conservados, según sus características. Es necesario que, desde la dirección, se tengan en cuenta las circunstancias del servicio, de manera que se valore adecuadamente la asunción de una técnica
determinada no por la posible sensación de adelanto con respecto a otros servicios sino como respuesta a las necesidades concretas que tiene este. La toma de decisión en el ámbito del análisis de los sistemas de búsqueda y recuperación de la información –directamente relacionada con la política de descripción, anterior, y la política de difusión, posterior–, requiere la evaluación de aquellos factores que la determinan. Se pueden señalar como factores que determinarán la elección de una política de recuperación de información en el archivo los siguientes:
  1. El tipo de información conservado. Documentación que contiene información administrativa, muy estructurada y previsible o, por elccontrario, información cognitiva, muy poco estructurada.
  2. El soporte o legibilidad automática del documento. Permite la indización automática o no de la información, la reproducción en ficheros gráficos fácilmente transportables, etc.
  3. Recursos económicos del servicio.
  4. Recursos humanos del servicio.
  5. El destino, en cuanto a conservación o no, de los documentos descritos.
  6. El universo posible de usuarios.
  7. Los tipos de usuarios. Son necesarias diferentes políticas para usuarios de archivos administrativos o de archivos históricos, usuarios expertos o inexpertos, etc.
  8. Antigüedad de la documentación, que incide en la mayor o menor intensidad de problemas lingüísticos, de necesidad de explicación del contexto, etc.
  9. El tamaño del fondo, que obliga a seleccionar niveles de descripción.
Se puede utilizar el análisis de las fases en las que se plasma el proceso de recuperación de la información como medio para explicar las diferentes políticas posibles en el ámbito de la recuperación de la información.

Revista Catalana d’Arxivística

viernes, 13 de agosto de 2010

CONCEPTO DE RECUPERACIÓN DE INFORMACIÓN.

Cuando se genera la necesidad de obtener nueva información sobre un asunto o materia de interés, se  manifiesta una carencia, una situación irregular de estructuras mentales y cognitivas.

Aparecen  Belkin, Oddy y Crofts  hablado de ASK, o "Anomalous State of Knowledge" (Estado anómalo del Conocimiento), es “un estado mental de incertidumbre que mueve al individuo a desarrollar una serie de acciones para salir de ese estado”[1]. Fuera de eso Ingwersen concluye la existencia de un problema personal de espacio, "problem space".  Se daría como  respuesta a estas  situaciones, el individuo desarrolla  un conjunto de actividades (actividades profundamente relacionadas con la adquisión de nueva información, y con la comunicación oportuna para salir del estado anómalo[2] y para salir del problema de espacio,.

La recuperación de información es el conjunto de tareas en las  cuales el usuario por el cual encuentra  y accede a los recursos de información que son oportunos para la solución del problema planteado.

Estas tareas son fundamentales para los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc. Las tareas se engloba dentro del campo de la Documentación Automatizada o Informática Documental.


[1] Tramullas, Jesús y Kronos. Introducción a la Documática; Sección 3 “recuperación de Información”, [en línea]  1997, 2000 [01 Septiembre de 2010]. Disponible en la web: http://tramullas.com/documatica/3-1.html

[2] Anómalo: Irregular, extraño

Conceptos de Recuperación de Información.

Cuando se genera la necesidad de obtener nueva información sobre un asunto o materia de interés, se  manifiesta una carencia, una situación irregular de estructuras mentales y cognitivas.

Aparecen  Belkin, Oddy y Crofts  hablado de ASK, o "Anomalous State of Knowledge" (Estado anómalo del Conocimiento), es “un estado mental de incertidumbre que mueve al individuo a desarrollar una serie de acciones para salir de ese estado”[1]. Fuera de eso Ingwersen concluye la existencia de un problema personal de espacio, "problem space".  Se daría como  respuesta a estas  situaciones, el individuo desarrolla  un conjunto de actividades (actividades profundamente relacionadas con la adquisión de nueva información, y con la comunicación oportuna para salir del estado anómalo[2] y para salir del problema de espacio,.

La recuperación de información es el conjunto de tareas en las  cuales el usuario por el cual encuentra  y accede a los recursos de información que son oportunos para la solución del problema planteado.

Estas tareas son fundamentales para los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc. Las tareas se engloba dentro del campo de la Documentación Automatizada o Informática Documental.


[1] Tramullas, Jesús y Kronos. Introducción a la Documática; Sección 3 “recuperación de Información”, [en línea]  1997, 2000 [01 Septiembre de 2010]. Disponible en la web: http://tramullas.com/documatica/3-1.html

[2] Anómalo: Irregular, extraño

lunes, 2 de agosto de 2010

Antecedentes de la evaluación en r.i


El antecedente de los experimentos de evaluación está en el trabajo realizado por la ASTIA (Armed Services Technical Information Agency) y el College of Aeronautics sobre la recuperación de documentos representados con unitérminos extraídos del título y el resumen [Ellis 90]. En este experimento realizado en 1953 fue donde se utilizó por primera vez el concepto de relevancia, aunque éste ya había sido formulado en la década anterior [Saracevic 75].
El primer trabajo de evaluación propiamente dicho, fue el desarrollado en Crandfield [Cleverdon 66] a finales de la década de los 50. La importancia de estos trabajos radica en que fueron los primeros en establer la metodología de la evaluación y las herramientas que debían emplearse. Las herramientas son: Una colección de documentos de la que se extraen las preguntas y los juicios de relevancia. Con éstos se calculan las medidas de precisión y exhaustividad para analizar los resultados y establecer las comparaciones entre los modelos. Esta metodología es la que sigue presente en la evaluación de la recuperación

http://www.hipertext.net/web/pag238.htm#La%20relevancia
Licencia de Creative Commons
Manual de Alfresco by Claudia Marcela Torres is licensed under a Creative Commons Attribution-ShareAlike 2.5 Colombia License.
Based on a work at www.alfresco.com.
Permissions beyond the scope of this license may be available at http://creativecommons.org.