Recuperación de Información | Sistemas de Información y Documentación | Universidad de la Salle

U. de la Salle

Eres el visitante No.

Reproducir Video en Nueva Ventana

jueves, 26 de agosto de 2010

La indización


Indización es el procedimiento que produce entradas en un índice.
Indización es el proceso de análisis del contenido informativo de registros de conocimiento (documentos) y la expresión de ese contenido en el lenguaje del sistema correspondiente.
Indización es la operación que tiene como propósito representar los resultados del análisis documental de un documento por medio de términos extraidos de un lenguaje documental.
Se pueden apreciar dos ideas básicas:
  • El objetivo de la indización es representar (expresar, describir o indicar) el contenido (temas, características) de un documento.
  • El proceso de indización tiene dos componentes: (a) análisis de contenido para seleccionar los conceptos que representarán los documentos; y (b) traducción o expresión de los conceptos seleccionados en el lenguaje utilizado por el sistema.
Por lo tanto hay que estudiar primero de qué trata el documento para extraer los conceptos y aplicar una estrategia de indización que permita traducir los conceptos. Esta estrategia debe tener en cuenta los puntos siguientes:
  • Fuentes de procedencia de los términos: Tesauro, vocabularios, lenguaje natural.
  • Especificidad: ¿Cuán específico debe ser un indizador al traducir un concepto a un término índice? ¿Debe el término seleccionado ser tan específico como el concepto? o ¿debería utilizarse uno más amplio? Por ejemplo: Un documento trata sobre los perros de raza Cocker Spanniel, pero se puede pensar que este término es demasiado específico para el sistema y entra en el índice con el término Perro, más amplio. Evidentemente esto depende del sistema documental, porque si se tratara de una base de datos sobre perros el término de entrada adecuado sería el primero.
  • Ponderación: ¿Se puede expresar de alguna manera la importancia relativa de un concepto en un docuemento?
  • Precisión: ¿Qué grado de precisión debe tener la traducción? ¿Qué hacer cuando no hay un término adecuado?
  • Grado de coordinación: ¿Deben utilizarse términos simples o términos compuestos? Por ejemplo, el término Educación Infantil puede ser equivalente a la combinación de términos Educación e Infancia, cada uno de ellos por separado y combinables en la búsqueda.
  • Exhaustividad: ¿Todo debe ser indizado?.
Objetivos y funciones de un índice.
  1. Identificar y localizar información potencialmente relevante en el documento o la colección indizada.
  2. Discriminar entre información sobre un tema y simples menciones al tema.
  3. Excluir menciones al tema que no aporten nada significativo a un usuario potencial.
  4. Analizar los conceptos tratados en el documento para proponer encabezamientos (entradas) adecuados basados en su propia terminología.
  5. Indicar relaciones entre temas.
  6. Agrupar o reunir materiales separados en la colección.
  7. Organizar encabezamientos y subencabezamientos y modificadores en entradas del índice.
  8. Dirigir al usuario hacia términos válidos por medio de reenvíos del tipo USE o Véase.
  9. Sugerir al usuario de un tema que vea también otros por medio de reenvíos como Véase también.
  10. Organizar las entradas en un orden sistemático que ayude al usuario.
La operación de Indización.
La indización comporta las operaciones siguientes:
  • Planteamiento de objetivos: Contexto de trabajo.
  • Conocimiento del contenido del documento.
  • Elección de conceptos a representar: Selectividad (Retener aquellos conceptos sobre los cuales el documento aporta información susceptible de utilizar alusuario) Exhaustividad (Todos los conceptos útiles deben ser extraidos). El criterio principal de selección es el valor potencial del concepto escogido como elemento de expresión del tema del documento de cara a su recuperación.


Fenómeno: electricidad, lluvia ácida


Objeto: avión, trenes de cercanías


Documento legal: ley, sentencia


Materia: análisis documental, agricultura,
¿Qué?

estudio de..., cálculo de...



Arquitectónica: La Alhambra

Materia
Obra
Literaria: La Odisea
¿Cómo?


Pictórica: La rendición de Breda


Proceso: Envejecimiento de la población


Cualidad: esfuerzo, optimismo


Propiedad: Flexibilidad, endurecimiento


Materiales: Cuero, polietileno






Político: Napoleón


Personaje
Artístico: Jorge Luis Borges
¿Quién?
Personalidad

Ficticio: el Capitán Haddock


Entidad: el Atlético de Madrid; Zara





Día: 14 de abril de 1912
¿Cuándo?
Tiempo
Año: 1789


Siglo: XVI


Período: Holoceno, Años 60, 1936-1939





Continente: Asia


Conjunto de países: Mercosur


País: México


Estado o provincia: Baviera
¿Dónde?
Lugar
Ciudad: Siena


Barrio: Prosperidad


Calle: Corredera Alta de San Pablo


Río: Bidasoa


Cadena montañosa: Sierra Madre


Comarca: El Maresme


Mar: Mediterráneo





 
  • Verificación de la pertinencia de los conceptos extraidos.
  • Traducción de los conceptos escogidos al lenguaje documental del sistema. Los conceptos deberán traducirse por entradas del mismo nivel de especificidad o superior. Si el concepto es compuesto y existe la opción deberátraducirse por una entrada compuesta.
  • Verificación de la pertinencia de los términos obtenidos planteándolos como términos posibles de interrogación y valorando si el documento es pertinente.
  • Formalización de la descripción si el sistema prevé algún tipo de regla.
 
Tipología de índices:
Índices libres basados en palabras del texto: Son índices cuyas entradas están conformadas por palabras derivadas del texto mediante métodos extractivos. La tarea principal del analista es identificar las palabras candidatas a formar parte del índice.
  • Índices de documentos individuales
  • Índices de colecciones de documentos
  • Índices esquemáticos
  • Índices de palabras y nombres (concordancias)
  • Índices permutados KWIC, KWOC, KWAC
  • Índices de unitérminos (Taube)
  • Índices de citas
Índices controlados basados en conceptos. Proceso intelectual de análisis comprensión de contenidos y traducción a lenguaje documental. Requieren el uso de un tesauro u otro lenguaje documental.
Indización mediante descriptores.
El método de indización por descriptores se basa en la suposición de que los contenidos semánticos (las materias o temas) de un documento pueden expresarse con suficiente precisión por una palabra o conjunto de palabras que cumplen una función nominativa. Estas palabras-clave o descriptores actúan de forma independiente y pueden combinarse entre sí utilizando los operadores lógicos booleanos. Generalmente se ofrecen en sistemas poscoordinados y suelen utilizar un tesauro.
Operadores lógicos:
  • Intersección: la intersección de dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer a ambos conjuntos. Si tenemos el conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor LEGISLACION. La intersección entre ambos estará integrada por documentos que contienen ambos luego tratarán sobre Legislación cinematográfica. La intersección se suele expresar con los operadores siguientes:
CINE AND LEGISLACION
CINE Y LEGISLACION
  • Unión: La unión de dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer a uno, otro o a los dos. Si tenemos un conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor TEATRO, el resultado será un conjunto integrado por todos los documentos de Cine y todos los de Teatro. La unión se suele expresar con los operadores siguientes:
CINE OR TEATRO
CINE O TEATRO
  • Diferencia: La diferencia entre dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer al primero pero no al segundo. Si tenemos un conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor ESPAÑA el resultado será un conjunto integrado por todos los documentos de Cine, menos los de Cine español. La diferencia se suele expresar con los operadores siguientes:
CINE NOT ESPAÑA
CINE NO ESPAÑA

Los descriptores son palabras o grupos de palabras incluidas en un lenguaje documental y escogidas de entre un conjunto de términos equivalentes para representar sin ambigüedad una noción contenida en un documento o en una petición de búsqueda documental. (Véase también el tema de los Tesauros)
Descriptor unitérmino o simple: Descriptor que representa un concepto mediante una sola palabra: CINE, OCIO, HIERRO, AUTOMOVIL
Descriptor sintagmático o compuesto: Descriptor que representa un concepto utilizando más de una palabra (un sintagma nominal o preposicional): COMUNICACION SOCIAL, PARTIDOS POLITICOS, MEDIOS DE TRANSPORTE, EMPRESA PRIVADA.
Descriptor primario: Término o conjunto de términos que representan un concepto de manera unívoca. Es significativo, relevante y no hay posibilidad de ambigüedad en su sentido, pudiendo aparecer aislado sin necesidad de aclaración. Cualquiera de los citados en las categorías anteriores es así.
Descriptor secundario: Descriptor que necesita ir acompañado de otros descriptores para expresar un significado preciso: ANALISIS, EVALUACION, CONCEPTO, TEORIA.
Descriptor temático: Representa cualquier contenido disciplinar.
Descriptor geográfico: Representa todo tipo de conceptos vinculados con lugares y sitios.
Descriptor onomástico: Representa un nombre de persona o de institución.
Descriptor cronológico: Representa períodos de tiempo o fechas.


No hay comentarios:

Publicar un comentario

Licencia de Creative Commons
Manual de Alfresco by Claudia Marcela Torres is licensed under a Creative Commons Attribution-ShareAlike 2.5 Colombia License.
Based on a work at www.alfresco.com.
Permissions beyond the scope of this license may be available at http://creativecommons.org.