CORPUS PRESEVAL

IV. EL ETIQUETADO

El proceso de marcación y etiquetado de textos es uno de los asuntos más polémicos entre los investigadores. No obstante, el proyecto para el estudio sociolingüístico del español de Granada, Las Palmas, Lleida, Madrid-Alcalá, Málaga y Valencia (Ref. HUM2004-06052-C06-00), cuya coordinación científica desempeña el profesor José Ramón Gómez Molina, ha conseguido unificar los criterios de etiquetado que usan los diferentes equipos que lo integran, gracias a la labor realizada por el equipo de Málaga (1).

Evidentemente, el proceso de codificación y etiquetado enriquece el corpus puesto que añade una información descriptiva y complementaria a la transliteración -simple o ampliada-, que permite al usuario la reconstrucción lo más exacta posible de la interacción comunicativa al tiempo que marca convenientemente los fenómenos lingüísticos establecidos. Como apuntan Pino y Sánchez (1999: 85) “mientras que la transcripción traduce a ortografía la señal sonora, la codificación SGML es el resultado de una interpretación del texto que va más allá del nivel ortográfico” (2). Cabe destacar que el almacenamiento de los materiales en cintas DAT y en soporte informático, permitirá la ampliación futura del etiquetado en las transcripciones registradas según las necesidades de otros investigadores.

Las convenciones establecidas de forma general y consensuadas a fin de posibilitar el intercambio de los materiales lingüísticos entre los diferentes grupos de investigación, incluyen los grupos de etiquetas que a continuación se detallan. Así mismo, conviene señalar que tras la enumeración de estos subgrupos de marcas, presentamos de forma detallada los criterios de etiquetado utilizados en nuestro corpus.

A. Encabezado . Etiquetas externas o de documentación. Este primer bloque aporta información específica sobre el archivo de audio,

<fichero = Entrevista Valencia XX - VAL XX>

<formato = archivo digital = Conversación XX.mp3>

<duración = >

<idioma = español>

<texto = oral>

<corpus = PRESEEA-VAL>

<fecha de grabación = >

<ciudad = Valencia>

sobre la transcripción de la entrevista,

<transcripción = >

<fecha de transcripción = >

<revisión1 = Marta Albelda>

<revisión2 = José R. Gómez>

<revisión3 = Salvador Pons>

<Windows 98®. Word 97®>

y sobre la identificación de los participantes en la interacción comunicativa (características sociológicas, origen o procedencia, roles y lugar de la grabación)

<código informante = VAL-000(HM)(123)3>

<nombre informante = = I>

<entrevistador = José Ramón Gómez = E>

<I = X años, hombre/mujer, estudios superiores, profesión, lenguahabitual>

<E = 50 años, hombre, estudios superiores, profesor, bilingüe activo castellano-catalán>

<audiencia = A = años, hombre/mujer, estudiante universitario/a>

<origen = E = Valencia>

<origen = = >

<roles = E,I = relación surgida en la misma entrevista; I,A = amigos; I,A = conocidos>

<lugar de grabación = despacho de la Facultad >

<interacción = entrevista semidirigida>

Finaliza el encabezado con unas etiquetas, denominadas etiquetas de registro, que definen las características generales de la entrevisa atendiendo a variables diafásicas (3) (planificación: entrevista o coloquio; campo: técnico y no técnico; tenor) y a tipos discursivos (tipo de discurso (4): descriptivo, narrativo, expositivo, argumentativo y dialogal)

<planificación = entrevista>

<tipo de discurso = diálogo> <campo = no técnico> <tenor = estatus = 0, edad = 1, proximidad = 2>

 

B. Cuerpo del texto . Se detalla el inicio y el final de la transcripción mediante la etiqueta <texto>. Este bloque de etiquetas internas se desglosa en diferentes subgrupos (5).

B. 1. Marcadores de actuación sintagmática:

<sic> </sic>

<corrección>

<palabra cortada>

<vacilación>

<(hh ) >

<(m :) >

<(e :) >

<fático= afirmación= >

<fático= interrogación = >

<fático= admiración= >

<expresiva> </expresiva>

<expresivo=deixis=>

<expresivo=exclamación=>

<interrogativo> </interrogativo>

<suspensión voluntaria>

<interrupción=>

<cláusula no completa>

<simultáneo> </simultáneo>

 

B. 2. Marcadores de acciones no verbales . Son etiquetas que reflejan hechos visuales o intencionales, señalados por el transcriptor ya que ha estado presente en la entrevista.

<irónico> </irónico>

<metalingüístico> </metalingüístico>

<onomatopéyico> </onomatopéyico>

<apelativa = > </apelativa = >

<risas= >

<ruido= >

<observación complementaria = >

 

B.3. Etiquetas vinculadas a la puntuación y ortografía.

<nombre propio> </nombre propio>

<apodo> </apodo>

<título> </título>

<término> </término>

<extranjero> </extranjero>

<lengua = > </lengua = > (6)

<siglas= [ ] > </siglas>

/ (pausa funcional)

// (pausa breve)

/// (pausa entre uno y dos segundos) (7)

<silencio> (a partir de dos segundos)

<estilo directo> </estilo directo>

<estilo indirecto> </estilo indirecto>

<cita textual> </cita textual>

Se utilizan las convenciones usuales para la interrogación, la exclamación o el acento pero las pausas se codifican según su duración relativa.

 

B.4. Rasgos prosódicos . Se trata de etiquetas relacionadas con la entonación, el ritmo del discurso y el volumen de las emisiones, pero nosotros solo hemos utilizado las correspondientes al volumen de la emisión, el énfasis, el alargamiento y la elisión de segmentos fónicos o fonemas.

<volumen alto> </volumen alto>

<volumen bajo> </volumen bajo>

<énfasis>

<(:)>

<[ ]>

 

B.5. Otras etiquetas . Hacen referencia a incidencias de la grabación: inicio y final de texto, referencia temporal en la entrevista, interrupciones, etc.

<texto>

(0:00)

<ininteligible>

<registro defectuoso> </registro defectuoso>

<interrupción de la grabación>

<borrado accidental>

Además de este catálogo común de etiquetas, el equipo de Valencia ha elaborado un conjunto de marcas acorde con los intereses de la investigación que diferentes miembros del equipo están realizando. Están referidas:

- al tipo de discurso

<tipo=></tipo=>

<tipo=descripción> </tipo=descripción>

- y a diferentes variables de índole morfológica y sintáctica.

<haber impersonal>

<imperfecto subjuntivo>

<futuridad = futuro simple>

<futuridad = futuro perifrástico>

<futuridad = presente>

<construcción que-de que>

<perífrasis aspectual>

<perífrasis modal>

<aumentativo>

<diminutivo>

<tú impersonal>

 

A continuación se detallan los criterios aplicados en el proceso de marcación y etiquetado del corpus PRESEVAL (Proyecto para el Estudio Sociolingüístico del Español de Valencia). Se exponen en el mismo orden en el que se han presentado los diferentes subgrupos.

A. Encabezado.

Contiene las etiquetas del encabezado, que nosotros tenemos reprogramado con el siguiente contenido por defecto:

<fichero = Entrevista Valencia XX - VAL XX>

<formato = archivo digital = Conversación XX.mp3>

<duración = >

<idioma = español>

<texto = oral>

<corpus = PRESEEA-VAL>

<fecha de grabación = >

<ciudad = Valencia>

<transcripción = >

<fecha de transcripción = >

<revisión1 = Marta Albelda>

<revisión2 = José R. Gómez>

<revisión3 = Salvador Pons>

<Windows 98®. Word 97®>

<código informante = VAL-000(HM)(123)3>

<nombre informante = = I>

<entrevistador = José Ramón Gómez = E>

<I = X años, hombre/mujer, estudios superiores, profesión, lenguahabitual>

<E = 50 años, hombre, estudios superiores, profesor, bilingüe activo castellano-catalán>

<audiencia = A = años, hombre/mujer, estudiante universitario/a>

<origen = E = Valencia>

<origen = = >

<roles = E,I = relación surgida en la misma entrevista; I,A = amigos; E,A = conocidos>

<lugar de grabación = despacho de la Facultad >

<interacción = entrevista semidirigida>

<planificación = entrevista>

<planificación=> Describe el tipo de interacción entre los participantes. Por defecto, y así se indica en el encabezado, entrevista.

<planificación=entrevista> Planificación por defecto de todo el texto. Esquema pregunta/respuesta.

<planificación=coloquio> Planificación para casos de derivación de la entrevista a secuencias de coloquio, generalmente ocasionadas por la participación esporádica de un nuevo interlocutor (el oyente en nuestras entrevistas).

<tipo de discurso = diálogo> <campo = no técnico> <tenor = estatus = 0, edad = 1, proximidad = 2>

<tipo=></tipo=> Marca tipos de secuencia en función de unos criterios que se especifican a continuación. No se marcan secuencias donde no destaca uno de los tipos posibles o donde la asignación es dudosa. El tipo por defecto, indicado en el encabezado, es diálogo .

Aplicamos las etiquetas a grandes fragmentos con carácter general sin considerar las posibles oscilaciones en el tipo de texto internas.

<tipo=narrativo> </tipo=narrativo> Fragmentos donde se informa de eventos desarrollados en el tiempo. Anécdotas, cuentos, recuerdos…

<tipo=expositivo> </tipo=expositivo> Acción informativa acompañada generalmente de voluntad de aclaración. Situaciones, recetas, fiestas…

<tipo=argumentativo> </tipo=argumentativo> Exposición de argumentos, premisas, opiniones. Intención persuasiva sobre otros.

<tipo=diálogo> </tipo=diálogo> Fragmentos de pregunta-respuesta más rápidos, con tono generalmente más distendido y tema general, habitualmente relacionado con lo personal (gustos, preferencias, hábitos…)

<tipo=descripción> </tipo=descripción> Presentación de lugares, objetos, etc. a través de sus características.

 

<campo=> </campo=> Marca la aparición de un tema concreto. Debemos tener en cuenta la relación del informante con el tema: lo que para unos informantes es campo no técnico, para aquellos para los que constituye su trabajo puede convertirse en campo técnico si las referencias no son simplemente generales, sino más específicas.

(Criterio más estrecho que la etiqueta tipo, es decir, etiquetamos fragmentos concretos y claros, bien delimitados).

La clasificación de los temas sigue el siguiente criterio:

<campo = no técnico></campo = no técnico> la vida cotidiana, la familia, los amigos, o la historia social de los participantes se han englobado bajo el título de “no técnico”

<campo = técnico></campo = técnico> temas más especializados -trabajo, aficiones, estudios- se han agrupado bajo el rótulo de “técnico”.

<campo = ideología encubierta></campo = ideología encubierta> cultura local, por ejemplo

<campo = ideología patente></campo = ideología patente> política, cultura, educación, sociedad, seguridad / inseguridad ciudadana

<campo = ideología lingüística></campo = ideología lingüística> Fragmentos de tema metalingüístico.

 

<tenor=estatus = , edad = , proximidad = > Las etiquetas de tenor se emplean para describir la naturaleza de la relación que existe entre los interlocutores. Esta etiqueta, que también aparece en el encabezado con los valores por defecto que define el informante, sigue unas especificaciones que se indican a continuación:

= estatus =

0: Solidaridad (relaciones de igualdad de estatus)

1: Jerarquía I < E (el informante está en relación de inferioridad con el interlocutor)

2: Jerarquía I > E (el informante está en relación de superioridad con el interlocutor)

= edad =

0: Solidaridad (relaciones de igualdad aproximada de edad)

1: Jerarquía I < E (el informante es menor que el interlocutor)

2: Jerarquía I > E (el informante es mayor que el interlocutor)

= proximidad =

0: Insider (amigo, pariente, compañero, vecino de la red personal de contactos)

1: Outsider (conocido o lazo débil de la red personal de contactos)

2: Relación surgida en la entrevista misma

 

B.1. Marcadores de actuación sintagmática.

<sic> </sic> Incorrección, tales como falta de concordancia (sin pausas intermedias), formas personales de haber impersonal, lapsus, leísmo, loísmo, laísmo. Debemos tratar de delimitar lo más estrictamente posible la incorrección. En caso de incorrección por ausencia, etiquetamos el entorno mínimo necesario para que se entienda:

<corrección> Marca casos de autocorrección. En el texto de partida aparece un guión, que nosotros etiquetamos como corrección en los siguientes casos:

- la palabra siguiente a la que recibe el guión es distinta,

- la palabra siguiente al guión es la misma (o al menos empieza igual y parece ser la misma):

a) si se da simultáneamente vacilación, también etiquetamos corrección si la palabra es polisilábica

b) si no se da vacilación, etiquetamos corrección incluso en palabras monosilábicas

<palabra cortada> Casos de palabra cortada. En el texto de partida aparece un guión. La utilizamos cuando el guión señala una palabra incompleta, se complete o no a continuación. Cuidado con presuponer la palabra cortada: nunca se acompaña la palabra cortada con la etiqueta de lo que podría haber sido si se hubiera completado:

<vacilación> Marcamos con esta etiqueta los casos de vacilación, que interpretamos cuando aparece en el texto original un guión precedido de alargamiento en la palabra.

En el caso de las palabras monosilábicas con un guión en el texto de partida, interpretamos vacilación si se produce alargamiento y corrección en caso contrario:

<(hh)> Alargamiento específico, en el texto de partida marcado con dos hh. Sonido parecido a jj o ajj, es decir como una j<( :)> o aj<( :)> sin sonido vocálico claro.

<(m:)> Alargamiento específico, en el texto de partida marcado con dos mm.

<(e:)> Alargamiento específico, en el texto de partida marcado con dos ee.

<fático=afirmación=> Etiqueta para sonidos (no reconocidos como palabras) con una entonación o carácter afirmativo. Nosotros la empleamos solo, de momento, en marcas mm del texto de partida que cumplen una función fática de asentimiento (son emitidas por un participante y no interrumpe el discurso de su interlocutor).

<fático=interrogación=> Etiqueta para sonidos (no reconocidos como palabras) con una entonación de carácter interrogativo. Nosotros etiquetamos en casos de mm con sonido de sorpresa o entre signos de interrogación.

<fático=admiración=> Etiqueta para sonidos (no reconocidos como palabras) con una entonación o carácter admirativo. Etiquetamos mm entre admiraciones.

<expresiva> </expresiva> Enmarca secuencias de especial intensidad expresiva. Las expresiones del tipo ¡ uy!, ¡ay!, ¡uf!, ¡buf! no requieren etiquetado, así como aquellos fragmentos enmarcados por los signos de admiración.

Se trata de una especie de énfasis en elementos originalmente expresivos:

<expresivo=deixis=> No se ha dado el caso. Posible reformulación.

<expresivo=exclamación=> No se ha dado el caso. Posible reformulación.

  <interrogativo> </interrogativo> Expresiones que tienen un cierto carácter interrogativo pero que no se han podido transcribir con los signos de interrogación.

<suspensión voluntaria> En el texto de partida, marca de puntos suspensivos.

<interrupción=> Interrupción momentánea de la entrevista, con indicación tras el signo = de la causa de la misma. En el texto de partida se indica esta circunstancia con nota al pie.

<cláusula no completa> Etiqueta que marca emisión incompleta de una cláusula. Por indicación expresa la utilizamos sólo cuando se produce una interrupción por parte del interlocutor y cuando se retoma la cláusula no completada tras la interrupción. Sólo en casos de cambio de turno:

E: ¿tú crees que <construcción que-de que> <corrección> ?

I: sea en el ramo que sea/ ¿eh?

<simultáneo> </simultáneo> Etiqueta para fragmentos de coincidencia o solapamiento entre discursos. La cláusula de apertura indica el inicio de la simultaneidad en el primero de los involucrados, y la de cierre el fin de la simultaneidad en el otro involucrado.

I: pue<(:)>s <(e:)> </simultáneo> si quieres

 

B. 2. Marcadores de acciones no verbales.

 

<irónico> </irónico> Enmarca fragmentos caracterizados por una intención irónica, generalmente marcados en nota a pie de página en el texto de partida.

<metalingüístico> </metalingüístico> Mención de terminología lingüística y alusiones relativamente puntuales de carácter lingüístico. Excluimos términos muy generales como palabra , significado, sentido, etc. Incluiremos expresiones del tipo los de este pueblo hablamos cateto , en Sevilla tienen acento , etc.

<onomatopéyico> </onomatopéyico> Reproducción de sonidos.

<apelativa=> </apelativa> Etiqueta empleada para señalar la apelación directa de un participante de la entrevista (generalmente el informante) a otro (generalmente el oyente). Tras el signo = se identifica mediante inicial a la persona que recibe la apelación. Cuando se produce una apelación directa al oyente se suele acompañar de un cambio de tenor y, si la apelación es correspondida, con un cambio de planificación, que pasa durante ese intercambio a coloquio .

<risas=> Etiqueta introducida a partir de indicaciones de risas en el texto trascrito original, bien mediante (risas) , bien mediante nota a pie. Tras el signo = identificación de los productores de la risa mediante inicial asignada en el encabezado (uno o varios)

<ruido=> Etiqueta utilizada para marcar la producción de un ruido; indicado en el texto trascrito original mediante nota al pie. La utilizamos para etiquetar toses, carraspeos, palmadas y chasquidos.

<observación complementaria=> Utilizada para incorporar las notas al pie del texto trascrito original y otras aclaraciones, generalmente relativas a la gestos y movimientos durante la entrevista de alguno de los participantes, así como para etiquetar los suspiros. El resto de notas a pie de los textos de partida se eliminan, en general. Nunca la introducimos (aunque incorpore una nota aclarativa de gesto) si acompaña a la etiqueta apelativa (redundancia). También se utiliza para etiquetar suspiros.

 

B.3. Etiquetas vinculadas a la puntuación y ortografía .

 

<nombre propio> </nombre propio> Antropónimos y topónimos. También etiquetamos como nombre propio las marcas ( Ford, Seat… ) y, en caso de marcas extranjeras, acompañamos esta etiqueta con extranjero:

<título> </título> Títulos de película, cuentos, etc. Posibilidad de empleo para nombres de cursos.

<término> </término> Tecnicismo. Términos no de dominio público. Álgebra, Magisterio, Filología Inglesa, ...

<extranjero> </extranjero> Términos no incorporados al D.R.A.E. y nombres propios extranjeros (acompañar en este caso con etiqueta nombre propio). Mantenemos la grafía original del término extranjero. Posibilidad de incorporar pronunciación, si lo consideramos necesario por alguna razón (generalmente cuando se produce algún tipo de desajuste entre la pronunciación original y la del hablante) mediante la etiqueta observación complementaria:

<lengua=catalán> </lengua = catalán> Casos de empleo de expresiones en valenciano, incluidos los nombres propios (en este caso, acompañamos con etiqueta nombre propio). Tras el signo = se indica la lengua utilizada (catalán). Generalmente, cuando la compresión del texto se ve comprometida, acompañamos la expresión con la etiqueta observación complementaria con su traducción. Utilizaremos esta etiqueta para interferencias de lenguas de España, y reservamos extranjero para interferencias de lenguas extranjeras.

<lengua = catalán> depén </lengua = catalán> <observación complementaria=Expresión en valenciano, depén, ‘depende'>

  <siglas= [ ] > </siglas> Siglas, los acrónimos excluidos. En corchetes, ahora una transcripción fonológica; más adelante, trascripción fonética según R.F.E.

<silencio> Pausas de más de 2” (indicadas en el texto trascrito en segundos entre paréntesis, en ocasiones tras pausa de ///)

<estilo directo> </estilo directo> Fragmentos en cursiva en la trascripción original: reproducción de un discurso (de otro o propio) introducida por verba dicendi (decir, afirmar, contar…)

<estilo indirecto> </estilo indirecto> Referencia a un discurso (de otro o propio) introducida por verba dicendi (decir, afirmar, contar…) (en algunos casos por pensar, reflexionar …) y la preposición que .

<cita textual> </cita textual> Referencia a un texto, sea o no completamente literal. No se requiere cita expresa del autor.

 

B.4. Rasgos prosódicos.

 

<volumen alto> </volumen alto> Fragmentos en los que el volumen de la grabación es alto bien porque el informante se aproxima al micrófono, bien porque eleva el volumen de voz.

<volumen bajo> </volumen bajo> Fragmentos en los que el volumen de la grabación es bajo bien porque el informante se aleja del micrófono, bien porque habla con un tono de voz bajo.

<énfasis> </énfasis> Fragmentos que aparecen en mayúsculas en el texto transcrito original. Etiquetamos como énfasis la palabra completa aunque sólo aparezcan en mayúsculas algunas de sus letras en el texto de partida (énfasis parcial).

  no me dijo <énfasis> nada </énfasis>

<(:)> Etiqueta alargamiento. En el texto trascrito de partida aparecen las letras duplicadas.

<[ ]> Etiqueta pérdida. En el texto trascrito original, letras entre paréntesis. Etiquetamos individualmente aunque se produzca pérdida conjunta de varios fonemas:

 

B.5. Otras etiquetas.

 

<texto> Utilizada para señalar el inicio y el fin de la entrevista.

( 0:00 ) Etiqueta que introduce una referencia temporal en la entrevista. Se sitúan preferentemente en el comienzo de las intervenciones de los participantes en la entrevista, cada 30 segundos, aproximadamente. En caso de intervenciones que superen ese tiempo, hemos adoptado el criterio de introducir marcas de tiempo en esas intervenciones cada minuto, aproximadamente, aprovechando las pausas.

<ininteligible> Utilizada para fragmentos ininteligibles, identificados en el texto de partida con dos paréntesis (( )) vacíos.

<registro defectuoso> </registro defectuoso> Etiqueta que utilizamos para casos de reconstrucción dudosa de discurso, marcados en el texto de partida con dobles paréntesis no vacíos; por ejemplo ((no sabía))

<interrupción de la grabación> Etiqueta que introducimos en casos de interrupción completa de la grabación, marcadas en el texto de partida con puntos suspensivos entre paréntesis dobles, ((…))

<borrado accidental> Casos de borrado accidental. No se nos ha presentado ninguno.

 

C. Etiquetas aportadas por el equipo de Valencia .

 

<haber impersonal> Casos de empleo del verbo haber con valor impersonal.

<imperfecto subjuntivo> Etiqueta para usos del pretérito imperfecto de subjuntivo (usos de las formas -ra / -se)

<futuridad = futuro simple> Marca aparición de formas de futuro simple con valor de futuridad (descartamos etiquetar usos con valores de probabilidad, como en seguramente tú sabrás de qué estoy hablando...)

<futuridad = futuro perifrástico> Marca aparición de formas perifrásticas con valor de futuro ( va a ser mejor, voy a ir… ) Generalmente aparece en las proximidades alguna indicación con valor temporal ( esta noche voy a estudiar Matemáticas, mañana voy a cenar…)

<futuridad = presente> Marca aparición de formas de presente con valor de futuro ( esta noche cenamos con mi hermana )

<construcción que-de que> Marca la presencia de una construcción con la conjunción que inmediatamente tras un verbo de los siguientes tipos semánticos:

- entendimiento o percepción intelectual: pensar, suponer, admitir, creer, recordar, imaginar, considerar, darse cuenta, enterarse, saber…

- enunciativos: advertir, afirmar, contar, decir, comentar, responder, anunciar, sugerir…

- voluntad: aceptar, desear, esperar, pedir…

- percepción sensible: ver, oír…

 

También etiquetamos construcciones del tipo después (de que)+Verbo, antes (de que)+Verbo, a pesar (de que)+Verbo, aparte (de que)+Verbo

  <perífrasis aspectual> Marca la aparición de una forma perifrástica de tipo aspectual, según la siguiente tabla:

 

INFINITIVO

GERUNDIO

ir a

empezar/comenzar a

ponerse a

echar(se) a

romper a

estar a punto de

volver a

soler/acostumbrar (a)

acabar/terminar de

dejar de

parar/cesar de

estar

ir

venir

andar

llevar

quedarse

seguir

continuar

acabar/terminar

empezar/comenzar

<perífrasis modal> Marca la utilización de una forma perifrástica de carácter modal:

- tener que

- haber que

- haber de

- deber

- deber de

- poder +infinitivo.

<aumentativo> Señala la utilización de un aumentativo. Hemos considerado las terminaciones de aumentativo siguientes:

- azo/a

- ón/ona

Hemos contemplado los usos con el prefijo súper como aumentativos.

<diminutivo> Marca diminutivos. Hemos considerado las siguientes terminaciones:

-ito/a

-ico/a

-illo/a

-ete/a

-ín/ino/a

Hemos incluido el prefijo mini .

<tú impersonal> Usos de la segunda persona del singular con valor impersonal. Incluimos el uso de pronombres de segunda persona con el mismo valor. En caso de empleo simultáneo de pronombre y forma verbal, etiquetamos una sola vez.

I: me gusta por eso/ porque en ese barrio/ <tú impersonal> sales y <tú impersonal> tienes <corrección> pues eso/ la gente <tú impersonal> te conoce<(:)>

 

[ Página anterior]

 

 

 

 

 

 

 

 

 

 

NOTAS

 

(1)

A. Ávila, M. Vida y M. C. Lasarte: “Propuesta de transliteración y etiquetado del macrocorpus PRESEEA”, en http://www.linguas.net/preseea

 

[ Volver al texto]

 

 

 

 

 

 

 

 

(2)

El empleo del Standard Generalized Markup Language (SGML) y del Text Encoding Initiative (TEI) permite describir las partes y contenidos que tiene un documento, además de etiquetar de forma codificada todo el texto. Las directrices del PRESEEA aconsejan aplicar las normas de este sistema de transcripción. Para ampliar información vid . Ide y Sperber-McQueen (1995), Sperberg-McQueen y Burnard (1996). Para una aplicación de este sistema al español, vid . Alvar Ezquerra y Villena Ponsoda (1994), Llisterri (2002) y Martí y Llisterri (2002).

 

 

[ Volver al texto]

 

 

 

 

 

 

 

 

(3)

Halliday (1978), Gregory y Carroll (1978) y Biber (1988).

 

 

 

[ Volver al texto]

 

 

 

 

 

 

 

 

 

(4)

El equipo de Valencia ha introducido la etiqueta ‘discurso descriptivo' que no está en las normas generales.

 

[ Volver al texto]

 

 

 

 

 

 

 

 

 

 

(5)

Seguimos la denominación establecida por A. Ávila, M. Vida y M. C. Lasarte: “Propuesta de transliteración y etiquetado del macrocorpus PRESEEA”, en http://www.linguas.net/preseea

 

 

[ Volver al texto]

 

 

 

 

 

 

 

 

 

 

 

 

(6)

El empleo de la etiqueta <lengua= > </lengua= > es propio de las comunidades de habla bilingües, aunque su uso no tiene que estar restringido únicamente a ellas.

 

 

[ Volver al texto]

 

 

 

 

 

 

 

 

 

 

 

 

(7)

Etiqueta introducida por el equipo de Valencia.

 

 

 

[ Volver al texto]