ANALISIS DOCUMENTAL (AD)

DEFINICIÓN Y OPERACIONES DE AD

Consiste en extraer de un documento los términos que sirvan para una representación

condensada del mismo. Su objetivo es identificar el documento mediante puntos de acceso

e indicar su contenido para permitir su recuperación posterior por parte del usuario.

El resultado es la producción de un nuevo documento diferente al original, un documento

secundario: la referencia bibliográfica.

Las operaciones que implica el AD refieren un conjunto de técnicas bibliotecarias

tradicionales: catalogación, indización, clasificación y resumen.

PROBLEMAS LINGÜÍSTICOS Y DOCUMENTALES DEL AD

El AD afronta dos tipos de problemas:

1.Lingüísticos, puesto que hay que traducir un texto en lenguaje natural a otro normalizado.

La traducción se realiza a través de los llamados lenguajes documentales, que mediante

vocabularios controlados limitan la ambigüedad conceptual (tarea más difícil en el área de

humanidades)

2.Documentales. Son los que afectan a:

· el nivel de profundidad del análisis, que afecta al grado de silencio (por exceso de

superficialidad) y el ruido (por una profundida excesiva).

· la dificultad de normalizar operaciones de un alto contenido subjetivo: dos analistas

pueden elegir para el mismo documento pocos descritores idénticos.

LA REFERENCIA BIBLIOGRÁFICA (RB)

El producto final del AD es la RB, que contiene la descripción bibliográfica del documento

original, su clasificación, indización y, eventualmente, un resumen y otras informaciones.

Los servicios secundarios de información (bibliotecas, servicios de resumen, productores de

BDs...) tiene como misión elaborar RBs.

Estas RB se realizan de acuerdo a una normativa de carácter internacional,

fundamentalmente las ISBD, AACR2 y la ISO 690/1975 (Referencias bibliográficas.

Elementos esenciales)

DESCRIPCIÓN BIBLIOGRÁFICA (DB) DE LOS DOCUMENTOS

DEFINICIÓN DE DB

Es el conjunto de información destinada a dar una referencia única que identifique y localice

un documento. La tipología de estos es variada: libros, serials, informes, tesis, patentes...

NIVELES DE DB

La información sobre el documento puede tener distintos niveles de descripción en función

de la profundidad del análisis. Los niveles más generales son:

· Analítico. El documento se analiza como formando parte de un conjunto más amplio:

capítulo de un libro, un artículo de revista...

· Monográfico. El documento se analiza como una unidad entera: fascículo de revista,

informe...

Análisis documental Eugenio Tardón

4

· Colectivo. El documento se analiza como un conjunto de entidades físicas: libro en

varios vols...

FORMATOS DE INTERCAMBIO DE LA DB

Los principales formatos son: 1) MARC y UNIMARC para bibliotecas; 2) Manual UNISIST

de referencia de la UNESCO para centros de documento. 3) Formato Común de

Intercambio.

INDIZACION DE DOCUMENTOS

DEFINICIÓN DE INDIZACIÓN

Indizar consiste en extraer uno o más conceptos que representan el contenido temático del

documento con el objetivo de recuperarlo posteriormente (pe: distribución de las cuotas de

pesca de 1996). Implica dos tareas:

· Asignar uno o más códigos, numéricos o alfanuméricos, que representan el tema del

documento.

· Asignar significantes que corresponden al tema y que suelen extraerse de listas ad hoc.

TÉRMINOS DE INDIZACIÓN

Son las palabras o números que indican el contenido de los documentos. El nº de términos

de una referencia varía según las BDs. Cuantos más, mayor exhaustividad en la búsqueda,

pero menor precisión por exceso de ruido (documentos no pertinentes); y cuantos menos,

mayor precisión y silencio (documentos que serían pertinentes pero que no son

recuperados). La solución es buscar el equilibrio entre el ruido y el silencio.

FASES DE LA INDIZACIÓN

Hay tres fases u operaciones a realizar durante la indización:

Examen del documento

Permite establecer su contenido. hay que prestar atención las partes más informativas

(título, resumen, introducción, conclusiones y títulos de los capítulos) y preguntarse qué,

cómo, cuándo y dónde.

Extraer conceptos para identificarlo

Se trata de extraer los conceptos que mejor concreten el tema del documento. Se

recomienda el uso de de listados controlados.

Selección de los términos de indización

Si se utiliza un lenguaje documental, hay que traducir los conceptos extraidos a los términos

del lenguaje. Si se trata de texto libre, conviene que los términos sean aceptados en fuentes

de referencia: diccionarios, manuales...

SISTEMAS DE INDIZACIÓN

Los sistemas de indización son diversos y responden a exigencias concretas. Podemos

distinguir los siguientes.

Indización por materias

Encabezamientos de materias. Su representación típica son los encabezamientos de

materias empleados en casi todas las bibliotecas públicas. Los más importantes son: las

Subject Headings de la LC (1909), la Sears List of Subject Headings (1923) y en España, la

Lista de Encabezamientos de materias para bibliotecas públicas del Ministerio de Cultura y

los de algunas universidades (Sevilla, UCM).

Análisis documental Eugenio Tardón

5

Productos. De esta indización se obtienen productos como los catálogos alfabéticos de

materias y los índices y bibliografías impresas por materias.

Inconvenientes: Los principales incovenientes son: 1) falta de flexibilidad; 2) inadecuados

para las BDs informatizadas; y 3) escasa exhaustividad o profundidad.

Indización por unitérminos (Mortimer Taube, 1955)

Sistema ideado por Mortimer Taube (1955). Consiste en utilizar un sólo término o palabra,

el unitérmino, para representar los contenidos de un documento. Pese a sus inconvenientes

supone un avance importante respecto de la indización por materias.

Inconvenientes. Los principales son: 1) exceso de falsas conbinaciones; y 2) abundancia de

palabras polisémicas, homonímicas, sinónimas, ambiguas y vacías.

Indización por palabras-clave y descriptores (C. Mooers, 1941)

Es una indización relacionada con los primeros tesauros. Hay una ligera diferencia entre

palabra-clave, que es una indización en lenguaje libre extraída del texto del documento y

descriptor, que es un término sacado de un lenguaje documental y que puede ser

unitérmino, sintagmático (varias palabras), identificador (geográfico, personal, acrónimo). La

indización basada en descriptores la inició el norteamericano Calvin N. Mooers en 1941

Indización automática

Consiste en contrastar los vocablos de un documento cun un diccionario invertido del

programa, que puede ser un tesauro. Tras ello se asignan los terminos seleccionados.

4)Indización vectorial

Es un tipo de indización automática con importantísimas consecuencias en el terrero

documental. Parte de las insuficiencias de la lógica booleana empleada en los motores de

búsqueda y que se sustenta en el uso de técnicas binarias, donde los términos de

búsqueda están o no, y no existe ponderación de términos en los docs o registros, sino

solamente operaciones booleanas (y, o, no). Este método es insuficiente y ha sido criticado

desde los 80 por su lógica no intuitiva, la ausencia de lenguaje natural y la necesidad de

FU, a lo que se añade el hecho de que los operadores son muy restrictivos (y) o muy

inclusivos (o) y rígidos, pues consideran todos los docs igualmente pertinentes. Todo ello

lleva a un alto índice de búsquedas sin respuestas (seach failure), casi el 50% generan

silencio (por desconocer los puntos de acceso y otras dificultades) o respuestas excesivas

del sistema (information overload).

La indización vectorial resuelve este problema, se basa en la ponderación de entradas,

sobre todo en los trabajos de Shalton (83), que se apoyan en las formulaciones de Zipf (40)

y S. Jones, y que establecen, básicamente, la relación entre la frecuencia de un término y

su importancia para la representación del doc. Shalton elaboró un modelo vectorial que

comparaba la similaridad de la petición del usuario con la de los docs de la bds. Cada doc

de la bd tiene un coeficiente que resulta del peso de cada uno de sus término, y cada

pregunta del usuario es otro vector con un coeficiente análogo. El resultado son dos

coeficientes vectoriales: D (del doc) y Q (de la pregunta). De esta forma, recuperar

información es determinar el coeficiente de similaridad de los vectores D y Q.

Las ventajas son tremendas: 1) Los docs se ordenan según su pertinencia, que se deriva

de su puntuación (ahorrando tiempo al lector); 2) El tamaño de los conjunto recuperados es

predefinible, lo que supone el fin del overloap; y 3) No es necesario conocer el LI, pues la

Análisis documental Eugenio Tardón

6

consulta se puede efectuar en lenguaje natural. El éxito de este sistema ha llevado a su

implantación en muchas bds documentales: Lotus Notes, Personal Librarian, Wais, el host

Dialog con su orden target, e incuso los motores de búsqueda de Internet Lycos y Altavista.

LENGUAJES DOCUMENTALES (LD)

DEFINICIÓN DE LENGUAJE DOCUMENTAL (LD)

Un LD es un connunto de términos o frases nominales convencionales empleados para

representar el contenido de un doc con el fin de facilitar su recuperación. Es un lenguaje

artificial, controlado, para diferenciarlo del lenguaje natural. Permite la comunicación entre

usuario e información al emplear la misma representación formalizada.

Se denominan también sistemas de clasificación, lenguajes de indización y léxicos

terminológicos.

TIPOLOGÍA DE LOS LD: PRECOORDINADOS Y POSTCOORDINADOS

1. Los precoordinados se elaboran antes de su aplicación a los documentos, para

normalizar los conceptos que forman una materia. Ejemplo: CDU, encabezamientos de

materia.

2. Los postcoordinados son los que yuxtaponen los conceptos y los coordinan después

del almacenamiento. Se desarrollan al unísono con el conocimiento científico. La

incorporación de los nuevos conceptos es casi inmediata.

ESTRUCTURA DE LOS LD

Por su estructura, los LD pueden dividirse en lenguajes jerárquicos y asociativos.

Lenguajes jerárquicos o clasificatorios

Agrupan los conceptos desde lo general a lo específico, lo que lleva a clasificaciones

sistemáticas lineales. Cada concepto se representa por un código (numérico, alfabético o

alfanumérico). Las categorías son inamovibles y carecen de flexibilidad. Los tipos de

lenguajes jerárquicos más conocidos son:

Sistemas o clasificaciones enciclopédicas

Permiten organizar documentos de cualquier materia, pues son universales y

multidisciplinares. Dividen el conocimiento en clases y susbclases. El prototipo es la CDU,

que es la Clasificación Decimal de M. Dewey (1876). Pese a sus inconvenientes, ha

mostrado su utilidad, pues nació para normalizar la clasificación bibliotecaria y evitar la

babel terminológica. Cubre bastante bien las necesidades de la mayoría de las bibliotecas,

facilitando, sobre todo, el libre acceso y el estudio del uso de la colección por categorías. Es

un sistema ineficaz para documentos especializados y para los nuevos tipos documentales:

video, cartografía, patentes, archivos de ordenador.

Otros sistemas son: Library of Congress Classfication (1904), originada en A. Cutter; la

clasificación de Henry Bliss - BC -, y la de la antigua URRS, BBC.

Clasificaciones especializadas

Abarcan diferentes disciplinas: medicina, derecho, economía. Ejemplo de ellas: Excerpta

Médica.

Clasificaciones facetadas

Análisis documental Eugenio Tardón

7

Son de origen enciclopédico, pero su organización permite construir áreas concretas del

conocimiento, siendo un nexo de unión entre los sistemas jerárquicos y los asociativos.

Funcionan asignando índices parciales, que se yuxtaponen, de cada una de las facetas que

caracterizan al documento. El modelo es la Colon Classification (CC), ideada por

Ranganathan en 1933, que divide el conocimiento en cinco grandes familias: personalidad,

materia, energía, espacio y tiempo.

Lenguajes de estructura asociativa

Organizan, por lo general, las nociones por orden alfabético mediante términos que

describen los conceptos. Estos descriptores se combinan entre sí libremente. Se organizan

desligados unos de otros, salvo en las operaciones de indización (preguntas y análisis).

Pertenecen a esta categoría: encabezamientos de materia, unitérminos, descriptores y

tesauros, constituyendo estos últimos el modelo más completo y hacia el que tienden los

vocabularios, taxonomías, etc.

Tesauros

La ISO 2788/1974 lo define desde el punto de vista funcional y estructural. Funcionalmente

es un instrumento para controlar la terminología al trasladar a un lenguaje más estricto la

lengua natural de los documentos. Estructuralmente es una lista de autoridades compuesta

por descriptores relacionados entre sí semánticamente (jerarquía, asociación, equivalencia).

Estructura del tesauro

Descriptores

Son los términos de un tesauro que representan un concepto sin ambigüedad. Se

diferencian de los unitérminos y las palabras-clave en que éstos son parte del lenguaje

natural.

Identificadores

Son descriptores referidos a nombres geográficos, de personas, entidades, acrónimos.

Relación entre decriptores

1. Relaciones de sinonimia, polisemia y homografía. Se establece mediante la notación

USE (que remite del descriptor no admitido al admitido), y UF (que informa de términos

sinónimos, polisémicos..., no admitidos).

2. Relación jerárquica, que define los descriptores más genéricos y más específicos,

dando lugar a relaciones recíprocas. Emplea las notaciones BT y NT

3. Relación asociativa o de afinidad. Indica las relaciones de cierta equivalencia en

dirección horizontal de los términos. Se representa por la notación RT, en español VT

(véase también).

4. Notas de definición o Scope Note. Explican brevemente la utilización que debe

asignarse al descriptor para: limitar su empleo, desarrollar acrónimos, excluir dobles

sentidos. Se emplea con la notación SN, en español NA (nota de alcance)

Partes de un tesauro

Pueden distinguirse cuatro apartados:

Grandes familias o microtesauros, con la relación de todas las facetas de cada uno; 2)

Descriptores ordenados por facetas; 3) Alfabético de descriptores; y 4) Índices permutados

KWIC y KWOC.

Análisis documental Eugenio Tardón

8

EL RESUMEN O ABSTRACT

Es la representación abreviada y precisa del contenido de un documento, sin interpretación

crítica y sin distinción del autor del análisis. La norma ISO 214 proporciona reglas para

preparar y presentar los resúmenes.

TIPOS DE RESÚMENES

Informativo o analítico

Es un resumen completo, con información cuantitativa y cualitativa, de unas 250 palabras.

Descriptivo o indicativo

Es más breve, entre 50-100 palabras. Describe el tipo de documento y tema tratados de

forma breve.

De autor o documentalista

Cada vez más, las normas exigen a los autores un resumen del texto en el momento de su

aparición.

OBJETIVOS DEL RESUMEN

Tres objetivos principales: determinar el interés del documento de una forma rápida, ayudar

a la selección de la información, y difundir la información.

CÓMO HACER EL RESUMEN

Elementos del resumen

Al elaborar el resumen se debn mencionar los siguientes aspectos:

1. Finalidad. El resumen debe recoger los objetivos principales o el tema del estudio,

salvo que aparezca en el título

2. Metodología del estudios. Los métodos de investigación no deben describirse salvo

que ayuden a explicar el texto o sean técnicas nuevas.

3. Resultados y conclusiones. deben estar representados claramente en el resumen.

Redacción del resumen: disposión y estilo

En cuanto a cuestiones estilísticas, debe redactarse como mínimo en el idioma del

documento original. Si forma parte de una revista, se dispondrá al principio del artículo; si

de de un libro o tesis, en el reverso de la página del título o en la siguiente; y si es una

referencia bibliográfica, tras la descripción bibliográfica de ésta.

Debe iniciarse con una frase que contenga en lo posible la idea esencial, con pocas

abreviaturas, con verbos en forma activa y palabras significativas que sean útiles al

interrogar al sistema.

Como pautas a seguir: a) leer las partes principales del texto, tomar nota de las ideas más

significativas y apuntar palabras clave; b) redactar un borrador a partir de las notas

tomadas evitando copiar del documento original, sino con el estilo del redactor; y c) pulir el

estilo, sintaxis, puntuación y gramática.

Análisis documental Eugenio Tardón

-------Bibliografía--------

Tardón, Eugenio "Análisis documental"

Gimeno Perelló, J. "Sistemas de indización aplicados en bibliotecas: clasificaciones,

tesauros y encabezamientos de materias". En: Tratado básico de Biblioteconomía. Madrid:

Síntesis, 1996

Amat Noguera, N. Documentación científica y nuevas tecnologías de la información. Madrid:

Pirámide, 1987

Guinchat, C.; Menou, M.; Blanquet, M-F. Introducción general a las ciencias y técnicas de la

información y documentación. Madrid: CINDOC, UNESCO, 1990