ANALISIS DOCUMENTAL (AD)
DEFINICIÓN Y OPERACIONES DE AD
Consiste en extraer de un documento los términos que sirvan para una representación
condensada del mismo. Su objetivo es identificar el documento mediante puntos de acceso
e indicar su contenido para permitir su recuperación posterior por parte del usuario.
El resultado es la producción de un nuevo documento diferente al original, un documento
secundario: la referencia bibliográfica.
Las operaciones que implica el AD refieren un conjunto de técnicas bibliotecarias
tradicionales: catalogación, indización, clasificación y resumen.
PROBLEMAS LINGÜÍSTICOS Y DOCUMENTALES DEL AD
El AD afronta dos tipos de problemas:
1.Lingüísticos, puesto que hay que traducir un texto en lenguaje natural a otro normalizado.
La traducción se realiza a través de los llamados lenguajes documentales, que mediante
vocabularios controlados limitan la ambigüedad conceptual (tarea más difícil en el área de
humanidades)
2.Documentales. Son los que afectan a:
·
el nivel de profundidad del análisis, que afecta al grado de silencio (por exceso desuperficialidad) y el ruido (por una profundida excesiva).
·
la dificultad de normalizar operaciones de un alto contenido subjetivo: dos analistaspueden elegir para el mismo documento pocos descritores idénticos.
LA REFERENCIA BIBLIOGRÁFICA (RB)
El producto final del AD es la RB, que contiene la descripción bibliográfica del documento
original, su clasificación, indización y, eventualmente, un resumen y otras informaciones.
Los servicios secundarios de información (bibliotecas, servicios de resumen, productores de
BDs...) tiene como misión elaborar RBs.
Estas RB se realizan de acuerdo a una normativa de carácter internacional,
fundamentalmente las ISBD, AACR2 y la ISO 690/1975 (Referencias bibliográficas.
Elementos esenciales)
DESCRIPCIÓN BIBLIOGRÁFICA (DB) DE LOS DOCUMENTOS
DEFINICIÓN DE DB
Es el conjunto de información destinada a dar una referencia única que identifique y localice
un documento. La tipología de estos es variada: libros, serials, informes, tesis, patentes...
NIVELES DE DB
La información sobre el documento puede tener distintos niveles de descripción en función
de la profundidad del análisis. Los niveles más generales son:
·
Analítico. El documento se analiza como formando parte de un conjunto más amplio:capítulo de un libro, un artículo de revista...
·
Monográfico. El documento se analiza como una unidad entera: fascículo de revista,informe...
Análisis documental Eugenio Tardón
4
·
Colectivo. El documento se analiza como un conjunto de entidades físicas: libro envarios vols...
FORMATOS DE INTERCAMBIO DE LA DB
Los principales formatos son: 1) MARC y UNIMARC para bibliotecas; 2) Manual UNISIST
de referencia de la UNESCO para centros de documento. 3) Formato Común de
Intercambio.
INDIZACION DE DOCUMENTOS
DEFINICIÓN DE INDIZACIÓN
Indizar consiste en extraer uno o más conceptos que representan el contenido temático del
documento con el objetivo de recuperarlo posteriormente (pe: distribución de las cuotas de
pesca de 1996). Implica dos tareas:
·
Asignar uno o más códigos, numéricos o alfanuméricos, que representan el tema deldocumento.
·
Asignar significantes que corresponden al tema y que suelen extraerse de listas ad hoc.TÉRMINOS DE INDIZACIÓN
Son las palabras o números que indican el contenido de los documentos. El nº de términos
de una referencia varía según las BDs. Cuantos más, mayor exhaustividad en la búsqueda,
pero menor precisión por exceso de ruido (documentos no pertinentes); y cuantos menos,
mayor precisión y silencio (documentos que serían pertinentes pero que no son
recuperados). La solución es buscar el equilibrio entre el ruido y el silencio.
FASES DE LA INDIZACIÓN
Hay tres fases u operaciones a realizar durante la indización:
Examen del documento
Permite establecer su contenido. hay que prestar atención las partes más informativas
(título, resumen, introducción, conclusiones y títulos de los capítulos) y preguntarse qué,
cómo, cuándo y dónde.
Extraer conceptos para identificarlo
Se trata de extraer los conceptos que mejor concreten el tema del documento. Se
recomienda el uso de de listados controlados.
Selección de los términos de indización
Si se utiliza un lenguaje documental, hay que traducir los conceptos extraidos a los términos
del lenguaje. Si se trata de texto libre, conviene que los términos sean aceptados en fuentes
de referencia: diccionarios, manuales...
SISTEMAS DE INDIZACIÓN
Los sistemas de indización son diversos y responden a exigencias concretas. Podemos
distinguir los siguientes.
Indización por materias
Encabezamientos de materias. Su representación típica son los encabezamientos de
materias empleados en casi todas las bibliotecas públicas. Los más importantes son: las
Subject Headings de la LC (1909), la Sears List of Subject Headings (1923) y en España, la
Lista de Encabezamientos de materias para bibliotecas públicas del Ministerio de Cultura y
los de algunas universidades (Sevilla, UCM).
Análisis documental Eugenio Tardón
5
Productos. De esta indización se obtienen productos como los catálogos alfabéticos de
materias y los índices y bibliografías impresas por materias.
Inconvenientes: Los principales incovenientes son: 1) falta de flexibilidad; 2) inadecuados
para las BDs informatizadas; y 3) escasa exhaustividad o profundidad.
Indización por unitérminos (Mortimer Taube, 1955)
Sistema ideado por Mortimer Taube (1955). Consiste en utilizar un sólo término o palabra,
el unitérmino, para representar los contenidos de un documento. Pese a sus inconvenientes
supone un avance importante respecto de la indización por materias.
Inconvenientes. Los principales son: 1) exceso de falsas conbinaciones; y 2) abundancia de
palabras polisémicas, homonímicas, sinónimas, ambiguas y vacías.
Indización por palabras-clave y descriptores (C. Mooers, 1941)
Es una indización relacionada con los primeros tesauros. Hay una ligera diferencia entre
palabra-clave, que es una indización en lenguaje libre extraída del texto del documento y
descriptor, que es un término sacado de un lenguaje documental y que puede ser
unitérmino, sintagmático (varias palabras), identificador (geográfico, personal, acrónimo). La
indización basada en descriptores la inició el norteamericano Calvin N. Mooers en 1941
Indización automática
Consiste en contrastar los vocablos de un documento cun un diccionario invertido del
programa, que puede ser un tesauro. Tras ello se asignan los terminos seleccionados.
4)Indización vectorial
Es un tipo de indización automática con importantísimas consecuencias en el terrero
documental. Parte de las insuficiencias de la lógica booleana empleada en los motores de
búsqueda y que se sustenta en el uso de técnicas binarias, donde los términos de
búsqueda están o no, y no existe ponderación de términos en los docs o registros, sino
solamente operaciones booleanas (y, o, no). Este método es insuficiente y ha sido criticado
desde los 80 por su lógica no intuitiva, la ausencia de lenguaje natural y la necesidad de
FU, a lo que se añade el hecho de que los operadores son muy restrictivos (y) o muy
inclusivos (o) y rígidos, pues consideran todos los docs igualmente pertinentes. Todo ello
lleva a un alto índice de búsquedas sin respuestas (seach failure), casi el 50% generan
silencio (por desconocer los puntos de acceso y otras dificultades) o respuestas excesivas
del sistema (information overload).
La indización vectorial resuelve este problema, se basa en la ponderación de entradas,
sobre todo en los trabajos de Shalton (83), que se apoyan en las formulaciones de Zipf (40)
y S. Jones, y que establecen, básicamente, la relación entre la frecuencia de un término y
su importancia para la representación del doc. Shalton elaboró un modelo vectorial que
comparaba la similaridad de la petición del usuario con la de los docs de la bds. Cada doc
de la bd tiene un coeficiente que resulta del peso de cada uno de sus término, y cada
pregunta del usuario es otro vector con un coeficiente análogo. El resultado son dos
coeficientes vectoriales: D (del doc) y Q (de la pregunta). De esta forma, recuperar
información es determinar el coeficiente de similaridad de los vectores D y Q.
Las ventajas son tremendas: 1) Los docs se ordenan según su pertinencia, que se deriva
de su puntuación (ahorrando tiempo al lector); 2) El tamaño de los conjunto recuperados es
predefinible, lo que supone el fin del overloap; y 3) No es necesario conocer el LI, pues la
Análisis documental Eugenio Tardón
6
consulta se puede efectuar en lenguaje natural. El éxito de este sistema ha llevado a su
implantación en muchas bds documentales: Lotus Notes, Personal Librarian, Wais, el host
Dialog con su orden target, e incuso los motores de búsqueda de Internet Lycos y Altavista.
LENGUAJES DOCUMENTALES (LD)
DEFINICIÓN DE LENGUAJE DOCUMENTAL (LD)
Un LD es un connunto de términos o frases nominales convencionales empleados para
representar el contenido de un doc con el fin de facilitar su recuperación. Es un lenguaje
artificial, controlado, para diferenciarlo del lenguaje natural. Permite la comunicación entre
usuario e información al emplear la misma representación formalizada.
Se denominan también sistemas de clasificación, lenguajes de indización y léxicos
terminológicos.
TIPOLOGÍA DE LOS LD: PRECOORDINADOS Y POSTCOORDINADOS
1. Los precoordinados se elaboran antes de su aplicación a los documentos, para
normalizar los conceptos que forman una materia. Ejemplo: CDU, encabezamientos de
materia.
2. Los postcoordinados son los que yuxtaponen los conceptos y los coordinan después
del almacenamiento. Se desarrollan al unísono con el conocimiento científico. La
incorporación de los nuevos conceptos es casi inmediata.
ESTRUCTURA DE LOS LD
Por su estructura, los LD pueden dividirse en lenguajes jerárquicos y asociativos.
Lenguajes jerárquicos o clasificatorios
Agrupan los conceptos desde lo general a lo específico, lo que lleva a clasificaciones
sistemáticas lineales. Cada concepto se representa por un código (numérico, alfabético o
alfanumérico). Las categorías son inamovibles y carecen de flexibilidad. Los tipos de
lenguajes jerárquicos más conocidos son:
Sistemas o clasificaciones enciclopédicas
Permiten organizar documentos de cualquier materia, pues son universales y
multidisciplinares. Dividen el conocimiento en clases y susbclases. El prototipo es la CDU,
que es la Clasificación Decimal de M. Dewey (1876). Pese a sus inconvenientes, ha
mostrado su utilidad, pues nació para normalizar la clasificación bibliotecaria y evitar la
babel terminológica. Cubre bastante bien las necesidades de la mayoría de las bibliotecas,
facilitando, sobre todo, el libre acceso y el estudio del uso de la colección por categorías. Es
un sistema ineficaz para documentos especializados y para los nuevos tipos documentales:
video, cartografía, patentes, archivos de ordenador.
Otros sistemas son: Library of Congress Classfication (1904), originada en A. Cutter; la
clasificación de Henry Bliss - BC -, y la de la antigua URRS, BBC.
Clasificaciones especializadas
Abarcan diferentes disciplinas: medicina, derecho, economía. Ejemplo de ellas: Excerpta
Médica.
Clasificaciones facetadas
Análisis documental Eugenio Tardón
7
Son de origen enciclopédico, pero su organización permite construir áreas concretas del
conocimiento, siendo un nexo de unión entre los sistemas jerárquicos y los asociativos.
Funcionan asignando índices parciales, que se yuxtaponen, de cada una de las facetas que
caracterizan al documento. El modelo es la Colon Classification (CC), ideada por
Ranganathan en 1933, que divide el conocimiento en cinco grandes familias: personalidad,
materia, energía, espacio y tiempo.
Lenguajes de estructura asociativa
Organizan, por lo general, las nociones por orden alfabético mediante términos que
describen los conceptos. Estos descriptores se combinan entre sí libremente. Se organizan
desligados unos de otros, salvo en las operaciones de indización (preguntas y análisis).
Pertenecen a esta categoría: encabezamientos de materia, unitérminos, descriptores y
tesauros, constituyendo estos últimos el modelo más completo y hacia el que tienden los
vocabularios, taxonomías, etc.
Tesauros
La ISO 2788/1974 lo define desde el punto de vista funcional y estructural. Funcionalmente
es un instrumento para controlar la terminología al trasladar a un lenguaje más estricto la
lengua natural de los documentos. Estructuralmente es una lista de autoridades compuesta
por descriptores relacionados entre sí semánticamente (jerarquía, asociación, equivalencia).
Estructura del tesauro
Descriptores
Son los términos de un tesauro que representan un concepto sin ambigüedad. Se
diferencian de los unitérminos y las palabras-clave en que éstos son parte del lenguaje
natural.
Identificadores
Son descriptores referidos a nombres geográficos, de personas, entidades, acrónimos.
Relación entre decriptores
1. Relaciones de sinonimia, polisemia y homografía. Se establece mediante la notación
USE (que remite del descriptor no admitido al admitido), y UF (que informa de términos
sinónimos, polisémicos..., no admitidos).
2. Relación jerárquica, que define los descriptores más genéricos y más específicos,
dando lugar a relaciones recíprocas. Emplea las notaciones BT y NT
3. Relación asociativa o de afinidad. Indica las relaciones de cierta equivalencia en
dirección horizontal de los términos. Se representa por la notación RT, en español VT
(véase también).
4. Notas de definición o Scope Note. Explican brevemente la utilización que debe
asignarse al descriptor para: limitar su empleo, desarrollar acrónimos, excluir dobles
sentidos. Se emplea con la notación SN, en español NA (nota de alcance)
Partes de un tesauro
Pueden distinguirse cuatro apartados:
Grandes familias o microtesauros, con la relación de todas las facetas de cada uno; 2)
Descriptores ordenados por facetas; 3) Alfabético de descriptores; y 4) Índices permutados
KWIC y KWOC.
Análisis documental Eugenio Tardón
8
EL RESUMEN O ABSTRACT
Es la representación abreviada y precisa del contenido de un documento, sin interpretación
crítica y sin distinción del autor del análisis. La norma ISO 214 proporciona reglas para
preparar y presentar los resúmenes.
TIPOS DE RESÚMENES
Informativo o analítico
Es un resumen completo, con información cuantitativa y cualitativa, de unas 250 palabras.
Descriptivo o indicativo
Es más breve, entre 50-100 palabras. Describe el tipo de documento y tema tratados de
forma breve.
De autor o documentalista
Cada vez más, las normas exigen a los autores un resumen del texto en el momento de su
aparición.
OBJETIVOS DEL RESUMEN
Tres objetivos principales: determinar el interés del documento de una forma rápida, ayudar
a la selección de la información, y difundir la información.
CÓMO HACER EL RESUMEN
Elementos del resumen
Al elaborar el resumen se debn mencionar los siguientes aspectos:
1. Finalidad. El resumen debe recoger los objetivos principales o el tema del estudio,
salvo que aparezca en el título
2. Metodología del estudios. Los métodos de investigación no deben describirse salvo
que ayuden a explicar el texto o sean técnicas nuevas.
3. Resultados y conclusiones. deben estar representados claramente en el resumen.
Redacción del resumen: disposión y estilo
En cuanto a cuestiones estilísticas, debe redactarse como mínimo en el idioma del
documento original. Si forma parte de una revista, se dispondrá al principio del artículo; si
de de un libro o tesis, en el reverso de la página del título o en la siguiente; y si es una
referencia bibliográfica, tras la descripción bibliográfica de ésta.
Debe iniciarse con una frase que contenga en lo posible la idea esencial, con pocas
abreviaturas, con verbos en forma activa y palabras significativas que sean útiles al
interrogar al sistema.
Como pautas a seguir: a) leer las partes principales del texto, tomar nota de las ideas más
significativas y apuntar palabras clave; b) redactar un borrador a partir de las notas
tomadas evitando copiar del documento original, sino con el estilo del redactor; y c) pulir el
estilo, sintaxis, puntuación y gramática.
Análisis documental Eugenio Tardón
-------Bibliografía--------
Tardón, Eugenio "Análisis documental"
Gimeno Perelló, J. "Sistemas de indización aplicados en bibliotecas: clasificaciones,
tesauros y encabezamientos de materias". En: Tratado básico de Biblioteconomía. Madrid:
Síntesis, 1996
Amat Noguera, N. Documentación científica y nuevas tecnologías de la información. Madrid:
Pirámide, 1987
Guinchat, C.; Menou, M.; Blanquet, M-F.
Introducción general a las ciencias y técnicas de lainformación y documentación
. Madrid: CINDOC, UNESCO, 1990