Das HTMLñFormat und seine (Un)benutzbarkeit für sprachwissenschaftliche Zwecke


© 1996, Fco. Javier MARTÍNEZ GARCÍA

§ 1. Einleitung; § 2. 7-Bit- und 8-Bit-Zeichensätze: geläufige Normen allgemeinen Gebrauchs; § 2.1. US-ASCII; § 2.2. ISO 8859-X; § 2.3. HTML; § 3. Zeichensätze von 16 Bit und mehr; § 3.1. WordPerfect; § 3.2. Unicode; § 3.3. 32-Bit-Codierung: ISO 10646; § 4. HTML und WWW: Neue Wege der Textüberlieferung; § 4.1. Die Sonderzeichenproblematik von HTML im WWW; § 4.2. Weitere textbezogene Probleme von HTML im WWW; § 5. Die diversen Formate im Vergleich; § 5.1. Sonderzeichen im WWW; § 5.2. Sonderzeichen unter WP; § 5.3. Sonderzeichen im 8-Bit-Format; § 5.3. Schlußfolgerungen. Mindestanforderungen; § 6. Datenauschtauschformat; § 6.1. Voraussetzungen für die zu benutzende Codierung; § 6.2. Voraussetzungen der elektronischen Übertragung und Überlieferung; § 7. Codierungsvorschlag: TITUS Transkriptionssysteme; § 7.1. TITUS Transkriptionssystem für Altindisch (Sanskrit) § 7.2. TITUS Transkriptionssystem für Altiranisch (Indoiranistik); § 7.3. TITUS Transkriptionssystem für Armenisch; § 8. Anhang: Zeichencodierung unter HTML
§ 1. Einleitung
Im vorliegenden Beitrag möchte ich auf die Frage eingehen, ob wir heutzutage in der Lage sind, die Texte, die die primäre Quelle unserer wissenschaftlichen Tätigkeit konstituieren, einwandfrei von System zu System zu übertragen und ob sie nach dieser Übertragung ohne weiteres verwendbar sind. Natürlich ist dies eine alte Frage; mit den neuen Forschungs- und Arbeitsperspektiven des Internets, v.a. mit der Einführung neuer Formate (im Sinne von Zeichenkodierung), die hier als Standard konzipiert sind, stellt sie sich jedoch in einer neuen Weise. Wir müssen uns darüber im klaren sein, daß das, was für uns eine Selbstverständlichkeit ist, nämlich mit verschiedenen Sprachen zu arbeiten und dementsprechend mit einer Reihe von Alphabeten, für den Rest der Welt eine seltsame Angelegenheit ist: Man mag ja über die eine oder andere Sprache arbeiten, aber viele auf einmal und noch dazu mit den zugehörigen Alphabeten zu "betreiben", ist für viele, wenn nicht für die Mehrheit der Computeranwender, sehr ungewöhnlich. Das Problem stellte sich früher schon für die Typographen; jetzt, im Zeitalter des Computers, betrifft es jeden, der verschiedene Fonts (Zeichensätze) benutzen will, insbesondere, wenn es um die Einbettung von Sonderzeichen in das jeweilige Programm geht. In den letzten Jahren haben sich die Fähigkeiten der Computer bekanntlich in enormem Tempo entwickelt, aber leider ging diese Entwicklung bisher nicht mit einem einheitlichen, systemunabhängigen Codierungsstandard einher, und obwohl schon erste Schritte in diese Richtung gemacht worden sind, werden sie leider doch noch viel zu zögerlich unternommen. Gewiß sind einige Standards ins Leben gerufen worden, die aber aufgrund eines beschränkten Einsatzbereichs nicht sehr leistungsfähig sind und uns weiterhin zwingen, mit einfachsten Methoden zu operieren, bis sich die Industrie für einen "endgültigen" Standard entschieden hat und ihn konsequent und ausnahmslos einführt. Dies ist wichtiger, als es scheinen mag: Es ist des öfteren der Fall, daß Programme unübliche Zeichen nicht unterstützen, auch wenn sich die Entwickler des jeweiligen Programms nach einem Standard, der diese Zeichen enthält, ausrichten.

§ 2. 7-Bit- und 8-Bit-Zeichensätze: geläufige Normen allgemeinen Gebrauchs
Als Mutter aller uns in der EDV geläufigen Zeichensätze darf die Norm ECMA-6 gelten. 1965 hat die European Computer Manufacturer's Association (sog. ECMA) diesen 7-Bit-Zeichensatz zum Standard erhoben, und dieser wurde sofort von nationalen normgebenden Institutionen adoptiert. Daher kennt man ihn auch unter anderen Bezeichnungen wie z.B. DIN 66003 oder ISO 646; am bekanntesten ist er jedoch sicherlich unter der Bezeichnung US-ASCII. Diese Norm dient noch immer als Grundlage für jeden Personal Computer, und sie wird von den verschiedenen Systemen unterstützt.

§ 2.1. US-ASCII
Der ASCII-Satz besteht insgesamt aus 128 Zeichen, die für die Repräsentation des lateinischen (englischen) Alphabets mit dem Zusatz einiger Steuer- und Sonderzeichen (Leerfeld, Ziffern, Satzzeichen) völlig ausreichen (s. die ersten 128 Zeichen in der Abb. 1).

Abb. 1: Die Norm ISO 8859-1 (ANSI bzw. WINDOWS-Zeichensatz)


 
 
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
020
 
 
 
 
 
 
 
 
 
 
 
 
 
!
"
#
$
%
&
'
040
(
)
+
,
-
.
/
0
1
2
3
4
5
6
7
8
9
:
;
060
<
=
>
?
@
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
080
P
Q
R
S
T
U
V
W
X
Y
Z
[
\
]
^
_
`
a
b
c
100
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
120
x
y
z
{
|
}
~
Å
Å
Å
,
É
Ñ
Ö
Ü
á
à
â
ä
ã
140
å
Å
Å
Å
Å
ë
í
ì
î
ï
ñ
ó
ò
ô
ö
õ
ú
ù
û
ü
160
 
¡
¢
£
¤
¥
¦
§
¨
©
ª
«
¬
­
®
¯
°
±
²
³
180
´
µ
·
¸
¹
º
»
¼
½
¾
¿
À
Á
Â
Ã
Ä
Å
Æ
Ç
200
È
É
Ê
Ë
Ì
Í
Î
Ï
Ð
Ñ
Ò
Ó
Ô
Õ
Ö
×
Ø
Ù
Ú
Û
220
Ü
Ý
Þ
ß
à
á
â
ã
ä
å
æ
ç
è
é
ê
ë
ì
í
î
ï
240
ð
ñ
ò
ó
ô
õ
ö
÷
ø
ù
ú
û
ü
ý
þ
ÿ
 
 
 
 
 

Es fällt ins Auge, daß diese einfache Ausgangsbasis nicht nur den immer anspruchsvolleren Sprachwissenschaftlern, sondern auch denjenigen, deren Alphabet auch Zeichenkombinationen wie é, ü, â, ú usw. enthält, nicht ausreicht. Ein Extremfall sind die nicht-lateinischen Alphabete wie z.B. das griechische, kyrillische, arabische, japanische usw., die durch diesen Zeichensatz in keiner Weise repräsentiert sind. Einige Jahre später, 1981, vermarktete IBM den ersten PC mit einem 8-Bit-Zeichensatz, dessen heutige Entsprechung die DOS-Codepage 437 ist. Von diesem Moment an bestand die Möglichkeit, bis zu 256 Zeichen zu verwalten: die bekannten 128 Zeichen der US-ASCII-Norm sowie weitere 128, deren Hauptfunktion es war, auf dem Bildschirm Grafikboxen zu entwerfen. Am Anfang war das neue Erzeugnis keineswegs zufriedenstellend, da sich die Erweiterung nur auf wenige Nationalalphabete erstreckte. Sie setzte jedoch eine erste 8-Bit-Grundlage, auf der die weiteren Standards beruhen sollten. Dabei ist zu bemerken, daß den eigentlichen standardisierten Teil des Zeichensatzes nach wie vor nur der "untere" Bereich bildete, d.h. die ersten 128 Zeichen. Die darauf aufbauenden, mit 8 Bit operierenden Standards tauschen willkürlich jeweils die 128 Zeichen der "oberen" Hälfte aus.

§ 2.2. ISO 8859-X
Wieder einen Schritt nach vorn machte die ECMA 1985, als sie die Norm ECMA-94 herausgab, die als Kern der gleich danach festgesetzten ISO 8859-X gilt. ECMA-94 ermöglichte, gleichzeitig 4 Zeichensätze zu verwalten, aber alle jeweils als Modifizierungen des oberen Bereichs des 8-Bit-Zeichensatzes. Diese Norm diente 1987 erneut als Grundlage für das Betriebssystem von IBM, das den ersten Zeichensatz für seine MS-DOS (3.3) mit kleineren Änderungen übernahm und als Codepage 850 der Öffentlichkeit vorlegte (s. Beispiele in der unteren Tabelle). Erst später kam die Codepage 819, die mit der Tabelle ISO 8859-1 identisch ist. Die ISO 8859-1 wird seither auch von Windows benutzt; sie ist identisch mit dem "American National Standard of Information" (ANSI).
 

Nr.
161
162
163
164
165
166
167
168
169
170
IBM
í
ó
ú
ñ 
Ñ 
ª
º 
¿
-
¬
ISO
¡ 
¢ 
£ 
¤
¥
§ 
¨ 
© 
ª 
 
Die ISO-Norm 8859-X stellt 10 verschiedene Tabellen mit einer ausreichenden Auswahl von Zeichen zur Verfügung, die aber leider alle auf einem 8-Bit-System basieren, wobei die untere Reihe immer identisch bleibt und nur die obere ersatzweise modifiziert wird; d.h. voll dargestellt wird entweder Nr. 8859-1 oder Nr. 8859-5 usw., niemals jedoch der gesamten Zeichenvorrat gleichzeitig. Die von ISO-8859 angebotenen Tabellen sind die folgenden (s. die drei Volldarstellungen in Abb. 2):1
  • ISO 8859-1: Lateinisch 1 (Westeuropa) unterstützt die Mehrheit der westeuropäischen Sprachen (und ihre modernen Abkömmlinge): Afrikaans, Albanisch, Baskisch, Dänisch, Deutsch, Englisch, Färingisch, Finnisch, Französisch, Galizisch, Irisch, Isländisch, Italienisch, Katalanisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch, Spanisch. Es fehlen jedoch einige Ligaturen und Sonderzeichen wie niederl. ij, franz. ú, wal. wal. wwal. y, usw.
  • ISO 8859-2: Lateinisch 2 (Osteuropa) ist für osteuropäische Länder mit lateinischem Alphabet konzipiert: Cechisch, Kroatisch, Polnisch, Rumänisch, Slovakisch, Slovenisch, Ungarisch.
  • ISO 8859-3: Lateinisch 3 (Südosteuropa) ist verwendbar für Esperanto, Maltesisch und Türkisch.
  • ISO 8859-4: Lateinisch 4 (Nordosteuropa) hat einige besondere Zeichen für Estnisch, Lettisch und Litauisch.
  • ISO 8859-5: Kyrillica enthält die Buchstaben des kyrillischen Alphabets. Sie ist für Bulgarisch, Makedonisch, Russisch, Serbisch, Ukrainisch und Weißrussisch verwendbar. Trotzdem ist das Fehlen von ukr.  und serb. h zu vermerken. Außerdem muß bemerkt werden, daß für die Darstellung von Russisch noch ein anderer Zeichensatz existiert, der in Rußland bevorzugt wird und der eine Mischung aus graphischen Zeichen und kyrillischen Buchstaben beinhaltet: der KOI8-R.
  • ISO 8859-6: Arabisch (linksläufig, wie ISO-8859-8).
  • ISO 8859-7: (Neu)griechisch.
  • ISO 8859-8: Hebräisch (linksläufig, wie ISO-8859-6).
  • ISO 8859-9: Lateinisch 5 ersetzt lediglich die isländischen Buchstaben Ð, ð, Ý, ý, Þ, þ aus ISO 8859-1 durch die türkischen Sonderzeichen .
  • ISO 8859-10: Lateinisch 6 unterstützt die in ISO-8859-4 fehlenden Buchstaben für Inuit (i.e. Eskimo) und "Sami" (i.e. Lappisch), um so den gesamten nordischen Sprachraum abzudecken.
  • Abb. 2: Einige Beispiele für die Norm ISO 8859-X

     
    ISO 8859-2 (Osteuropa)

    tabla de iso8859-2.gif

    ISO 8859-5 (Kyrillica)

    tabla de iso 8859-5

    ISO 8859-7 (Griechisch)

    tabla de iso 8859-7

     
     

    § 2.3. HTML
    Die Hypertext Markup Language (HTML) ist eine Applikation sowohl von SGML (Standard Generalized Markup Language), das einen Standard für die Dokumentenverarbeitung (document processing) darstellt, als auch von MIME (Multipurpose Internet Mail Extensions), das einen Standard für den Inhalt von Mailnachrichten (mail messages) bildet.2 Obwohl oft irrig damit identifiziert, ist HTML doch nicht gleich dem WWW-Standard. Das WWW benutzt verschiedene Formate für Datenaustausch und ñübertragung wie auch für viele andere Anwendungen. Die von WWW unterstützten Formate (Protokolle) betreffen nicht nur die Darstellung bzw. Übertragung von Texten, sondern auch die korrekte Wiedergabe von Audiodateien, Bildern, sowie die Erkennung bestimmter komprimierter Files usw. Seine Bedeutung hat HTML für die Übertragung von Texten und ihre korrekte Darstellung auf dem Bildschirm, da es ein untergeordnetes Format von MIME ist und ausschließlich zum eindeutigen Austausch und zur eindeutigen Darstellung der Daten dient, d.h. zur Kompatibilität (interoperability) zwischen den verschiedenen im Netz operierenden Systemen; deshalb müssen alle sog. Netzbrowser das HTML-Format unterstützen. Der HTML-Standard ab der Version 2.0 übernahm ISO 8859-1 als Defaultcodierung (Zeichensatz) der HTML-Texte. In der Praxis bedeutet dies, daß somit jeder Benutzer in der Lage sein sollte, die im Netz angebotenen Texte in einer korrekten Weise zu lesen, und daß auch die Darstellung der Zeichen des oberen Bereichs keine Probleme bereiten sollte, da jeder Browser ISO 8859-1 (also nur die erste Tabelle!) und viele andere weitere Zeichen (Grafik, Mathematik, [Neu-]Griechisch usw.) unterstützen sollte.3 Leider ist es jedoch so, daß viele der üblichen Browser, wenn überhaupt, nur ISO 8859-1 und einige weitere Zeichen des HTML-Zeichensatzes (s. Anhang) auf den Bildschirm bringen, was wiederum dazu führt, daß wir bisher nur von der eingeschränkten Zeichenpalette Gebrauch machen können. 4

    § 3. Zeichensätze von 16 Bit und mehr
    Dem vorhergehenden ist zu entnehmen, daß keiner der bisherigen Versuche dem Anspruch einer fehlerfreien und eindeutigen Datenverarbeitung im weitesten Sinne (Übertragung, Austausch, Indexierung, usw.) genügt. Der Hauptgrund für das Mißlingen dieser Versuche ist v.a. die breite Palette zur Verfügung stehender Standards sowie deren uneinheitliche Einführung und Übernahme (Programmimplementierung). Weiterhin ist zu bemerken, daß keine der 8-Bit-Standards eine ausreichenden Zeichenauswahl anbieten kann. Deswegen haben verschiedene Softwareentwickler und Institutionen schon frühzeitig an der Gestaltung "kompletterer" Zeichensätze gearbeitet. Technisch ist es seit langem möglich, Betriebssysteme für normale PCs mit 16-Bit- oder gar 32-Bit-Codierungen auszustatten, womit dem Benutzer letzlich sog. wide characters zur Verfügung stünden, d.h. immense Vorräte von Zeichen aller möglichen Alphabete.

    § 3.1. WordPerfect
    Eines der ersten Programme, die überhaupt eine 16-Bit-Codierung verwendet haben, ist das allgemein bekannte Textverarbeitungssystem WordPerfect (WP), das gleichzeitig eines der wenigen ist, die aufgrund dieser Besonderheit eine Arbeit mit Texten verschiedener Sprachen ermöglichen, ohne Uneindeutigkeiten zu verursachen. Seit der Version 5.0 verfügt WP über 13 Tabellen, die jeweils bis zu 256 festgelegte Zeichen enthalten (die 13. Tabelle ist frei definierbar). Neuere Versionen haben diese Tabellen erweitert und weitere hinzugefügt. Sehr wichtig ist, daß jeder Benutzer von WP seine Daten ohne Gefahr austauschen kann, da für jeden WP-Anwender die Zeichen eindeutig definiert sind. So ist z.B. das Griechische auf Tabelle 8 festgelegt, und ein griechisches a ist immer das Zeichen Nr. 1 in diesem Zeichensatz (i.e. 8:1); ebenso ist ein ukrainisches  ist immer 10:67 (d.h. Zeichen Nr. 67 in der Tabelle 10: Kyrillica), und ein ö ist immer 1:177 (in der Tabelle 1 befinden sich die mit Diakritika versehenen Buchstaben lateinischer Nationalalphabete). Auch WP hat die Möglichkeiten, einen 16-Bit-Zeichensatz anzubieten, jedoch nicht völlig ausgeschöpft, da von einem möglichen Zeichenvorrat von 65.536 Zeichen nur etwa 2.000 Zeichen genutzt werden. Immerhin kommt das WP-System allem Anschein nach dem gewünschten Ziel eines einwandfreien Datenaustausches sehr nah, aber da es auf hausinternen Überlegungen beruht und ohne Rücksicht auf andere Softwarefirmen entwickelt wurde, ist nicht abzusehen, daß sich diese Zeichenkodierung irgendwann einmal durchsetzen wird.

    § 3.2. Unicode
    Der erste ernstzunehmende Versuch eines internationalen, unabhängigen 16-Bit-Codierungssystems wurde vom Unicode-Konsortium unternommen. Der Versuch entwickelte sich zu einem Standard, der mit 65.536 verschiedenen festgelegten Zeichen fast alle die Codierung betreffenden Ansprüche zufriedenstellen könnte. Leider wird diese Norm bisher von sehr wenigen Programmen (mir ist keines bekannt!)5 und Betriebssystemen unterstützt.

    § 3.3. 32-Bit-Codierung: ISO 10646
    Obwohl es so aussieht, daß kein Entwickler die wide characters wirklich ernstnimmt oder überhaupt für nötig hält, gibt es schon einen weit fortgeschrittenen Versuch, eine endgültige Lösung herbeizuführen: eine 32-Bit-Codierung, die sich in der Norm ISO 10646 verkörpert und die Codierung von etwa 3 Milliarden Zeichen festlegen soll. Von der tatsächlichen Einführung dieser Norm sind wir jedoch noch weit entfernt, womit uns die weitere Diskussion erspart bleibt (s. weitere Informationen unter www.pls.com/dcstug/unicode.html).

    § 4. HTML und WWW: Neue Wege der Textüberlieferung
    Mit dem HTML-Format wird es möglich, die Textgestaltung und den Inhalt der Dokumente für das WWW zu manipulieren bzw. zu redigieren. Jedes fürs WWW konzipierte Dokument muß infolgedessen am HTML-Standard festhalten, da die Dokumente ansonsten in einer verwirrenden Weise dargestellt würden und der Vorteil des allgemein-öffentlichen Zugangs oder, im heutigen Jargon, des globalen Datenaustausches, verloren gingen. Die WWW-Dokumente haben deshalb ein besonderes Format, das nicht nur die Zeichencodierung (s. § 3.2.), sondern alle mögliche Steuerzeichen für die Darstellung verschiedener Textformate wie Schriftart, -größe, Tabellen, Mailadressen, Bildereinbettung, Verweise usw. betrifft. Ein genaues Bild des Gesagten kann man anhand des Vergleichs von Abb. 3 und 4 gewinnen, die eine einfache WWW-Seite in zwei verschiedenen Perspektiven wiedergeben.

    Abb. 3: Beispiel einer mit einem Browser gesehenen WWW-Seiten


     
     

    Die optisch gefällige Darstellungsweise des Dokumentes in Abb. 3 spiegelt sich nicht im Original, d.h. im Quelldokument, wider, wie aus Abb. 4 zu entnehmen ist. Tatsächlich ist der Quelltext von WWW-Seiten prinzipiell ganz anders aufgebaut, als es das Endprodukt auf dem Bildschirm suggeriert, und er sollte nach wie vor im reinen ASCII-Format geschrieben werden, damit alle Browser den Text zeigen können; denn es kommt, wie gesagt, nicht selten vor, daß die Browser die ISO 8859-1 Tabelle nicht vollständig unterstützen (s. § 2.3.), sondern nur deren unteren Bereich, i.e. die 128 ASCII-Zeichen (s. § 2.1.). In spitzen Klammern erscheinen jeweils die Codierungsvorgaben: <HTML> gibt zunächst darüber Auskunft, um welche Dokumentenart es sich handelt, <TITLE> über den Titel (der in der oberen Leiste des Browser-Fensters angezeigt wird), <STRONG>, <EM> etc. über die anzuwählende Fontart, <IMG SRC="../LOGOTIT1.GIF" ALT="LOGO VON TITUS"> über die anzuzeigenden Bilder mit dem Hinweis auf die zugrundeliegende Bilddatei und <A HREF="../BIBLIO/D-BIBLIO.HTM"></A> über Verweise auf anderen Seiten, die durch einfaches Anklicken aufrufbar sind, usw.
     

    <HTML><HEAD><TITLE>TITUS Bibliographie</title></head><body> <H1 ALIGN=CENTER> Thesaurus Indogermanischer Text und Sprachmaterialien</H1> <CENTER> <IMG SRC="../LOGOTIT1.GIF" ALT="LOGO VON TITUS"><BR></CENTER> <IMG ALIGN=CENTER SRC="../CENEFA.GIF"> <H2 ALIGN=CENTER> <STRONG>Bibliographie</STRONG></H2> <P ALIGN=CENTER> <A HREF="../BIBLIO/DBIBLIO.HTM"><IMG SRC="../BIBLDR.GIF" ALT=""></A><A HREF="../CURRIC/DCURRIC.HTM"><IMG SRC="../CURRD.GIF" ALT=""></A><A HREF="../PERSONAL/DPER-SON.HTM"><IMG SRC="../PERSD.GIF" ALT=""></A><A HREF="../TEXTE/DTEXTE.HTM"><IMG SRC="../TEXTD.GIF" ALT=""></A><A HREF="../LEXICA/DLEXICA.HTM"><IMG SRC="../WORTD.GIF" ALT=""></A><A HREF="../SOFTWARE/-DSOFTWA.HTM"><IMG SRC="../ZUBED.GIF" ALT=""></A> <BR> [<A HREF="BIBLIO/EBIBLIO.HTM">espa&ntilde;ol</A>] <P> <IMG ALIGN=CENTER SRC="../CENEFA.GIF"> <P> In dieser Bibliographie sollen von jetzt an Informationen zu Neuerscheinungen aus allen Gebieten der vergleichenden Sprachwissenschaft zur Verf&uuml;gung gestellt werden. Meldungen &uuml;ber Neuerscheinungen wie auch &uuml;ber in Vorbereitung befindliche Arbeiten, Dissertationen u.&auml;. k&ouml;nnen uns von jedermann unter Ber&uuml;cksichtigung der unten genannten <A HREF="#FORMAT">Formatierungsvorgaben</A> per <A HREF="#EMAIL">email</A> zugesandt werden; sie werden von <A HREF="PERSONAL/VAJKONNN.HTM"><EM>Nadja Vajkonny</EM></A> verarbeitet. Wir bitten um Unterst&uuml;tzung! ................................ </BODY></HTML> 
     
    § 4.1. Die Sonderzeichenproblematik von HTML im WWW
    Für uns Sprachwissenschaftler wird es nun aber eigentlich erst interessant, wenn es um Sonderzeichen geht, d.h. um alle möglichen über den ASCII-Standard hinaus vorkommenden Zeichen wie z.B. ñ, ü, ä, ß. Diese müssen in einer besonderen Art gekennzeichnet werden, damit die Browser sie darstellen können. So wird etwa das spanische ñ als &ntilde;, das deutsche ü als &uuml;, das ä als &auml; usw. codiert. Es ist für uns bedauerlich, daß der in HTML-Dokumenten zu benutzende Zeichenvorrat festgelegt (s. die Tabellen im Anhang) und entsprechend begrenzt ist. So besteht keine Möglichkeit, auf der Grundlage der o.g. Codierungsweise neue Zeichen zu schaffen, wie es nach einer einfachen Proportion denkbar wäre: wenn z.B. das á als &aacute;, das é als &eacute; und das Ú als &Uacute; zu codieren sind, dann sollte es auch möglich sein, durch den Code &cacute; ein  oder durch &nacute; ein , usw. zu schaffen. Dies ist jedoch nicht der Fall. Schwieriger wird es mit griechischen Zeichen, da nur diejenigen vorgesehen sind, die für das Neugriechisch gebraucht werden. Deshalb ist ein griechischer vollakzentuierter Text nicht im WWW darstellbar, und bisher gibt es keine allgemeingültige Lösung dieses Problems (dasselbe betrifft auch die Kyrillica, das Arabische, usw.). Obwohl die kombinatorische Zeichencodierung ein theoretisch offenes System bildet und für eine riesige Erweiterung bestens geeignet wäre, bleibt sie leider ungenutzt. Da auch die "Fremdschriften", wie gesagt, nur in geringem Maße darstellbar sind, müssen also andere Auswege gesucht werden, z.B. alle benötigten Zeichen als Bild zu speichern, um diese dann wie in den "guten alten Zeiten" in den Text zu setzen. Auch diese Lösung kann man jedoch nicht pauschal verwenden, da die Texte durch die vom HTML-Format benötigten internen Verweise sehr umfangreich würden und damit in den belasteten Internet-Netzen nur schwer zu handhaben wären. Eine andere Lösung ist diejenige, die derzeit im Rahmen des TITUS-Projekts getestet wird. Hier wurde auf eine Funktion verschiedener Browser zurückgegriffen, die es erlaubt, Fonts frei anzuwählen. An dieser Stelle kann man anstelle von systeminternen Fonts auch selbsterstellte Zeichensätze aufrufen. Die Lösung steht allerdings nur solange zur Verfügung, wie die Programme (d.h. die Browser) die Anwahl der Fonts dem Benutzer freistellen. Außerdem stößt man auch bei dieser Lösung wieder sofort auf das Problem der Standardisierung: Nicht alle WWW-Leser haben Zugang zu den Fonts,6 man muß die Dokumente in einer bestimmten (nicht unkomplizierten) Weise formatieren, und letztlich werden die selbst entwickelten Fonts nicht von allen Betriebssystemen unterstützt (derzeit nur MS-Windows, Apple-Macintosh, nicht jedoch UNIX).

    § 4.2. Weitere textbezogene Probleme von HTML im WWW
    Nicht nur die besondere HTML-Codierung bereitet dem wissenschaftlichen Anwender Schwierigkeiten. Es muß klargestellt werden, daß eine für den internationalen Austausch und darüber hinaus für sprachwissenschaftliche Zwecke konzipierte Netzapplikation auf der Basis einer eindeutigen und völlig ausreichenden Codierung (wie UNICODE oder besser ISO 10646) noch drei weitere Voraussetzungen zu erfüllen hat: die Möglichkeit der Dateneingabe, die Möglichkeit der Datendarstellung und die Möglichkeit der Datenbearbeitung bzw. -verwaltung. Diese Voraussetzungen sind keine Selbstverständlichkeit, wie Programme zeigen, die zwar Fremdschriften unterstützen, aber den Zugang zu diesen Funktionen der Fähigkeit des Benutzers überlassen. Ein Textverarbeitungsprogramm, das wide characters anbietet, sollte auch bei deren Eingabe ñd.h. wie erzeuge ich ein beliebiges Zeichen?ñ behilflich sein, indem z.B. Tastaturlayouts vordefiniert mitgeliefert werden, aber auch, indem es das einfache Mapping der Zeichen auf beliebige Tastaturpositionen erlaubt. Die wide characters sollten auch auf dem Bildschirm darstellbar sein, und nicht durch schwarze Kästchen o.ä. ersetzt werden. Dabei ist auch denkbar, daß nicht alle Schriften gleichzeitig angezeigt werden können oder daß der Benutzer dies nicht wünscht, und so könnte man eventuell an eine wissenschaftliche Transliterierung bestimmter Alphabete denken. Keinesfalls jedoch sollte man auf die Möglichkeit der exakten Darstellung eines Alphabets im Original verzichten. Es bleibt die Datenverwaltung. Sinnvoll wäre es, daß in ein und demselben Verarbeitungsprogramm Indizierungsroutinen und schnelle Suchwerkzeuge implementiert wären. Wenn das der nicht Fall ist, sollte man zumindest über zusätzliche Programme verfügen können, die als Datenbanken die wide characters unterstützen. Dieselben Desiderata gelten auch für das WWW und somit letzten Endes für das HTML-Format, da es uns einerseits als Herausgebern gestattet sein sollte, sprachwissenschaftliche Texte zu bearbeiten, zu edieren und ins Netz einzugeben, andererseits als Lesern, die Texte zu sehen und gleichzeitig auch wissenschaftlich auszuwerten, indem uns schneller Zugriff sowohl auf den Text selbst als auch auf verschiedene Indizes gewährleistet wird.

    § 5. Die diversen Formate im Vergleich
    Nach dem in § 4.2. gesagten liegt der Schluß nah, daß es bis dato nicht möglich ist, einen Text mit Zeichen, die über den ASCII-Standard hinausgehen, in einer adäquaten Weise durch das WWW zu verbreiten. Es wird aber sicher in einer nicht allzu fernen Zukunft realisierbar sein.

    § 5.1. Sonderzeichen im WWW
    Unbeschadet der durch die fehlende Codierung entstehenden gewaltigen Einschränkungen, findet man doch im WWW sehr interessante Versuche, "seltsame" Texte anzubieten, wie es etwa bei dem Avesta Web Server von Joseph H. PETERSON (s. http://kasson.cfa.org/~jpeterso/avesta.html) der Fall ist. Die folgenden Abbildungen zeigen die bisher erwähnten Probleme aus dem Gesichtspunkt der Praxis. In Abb. 5 ist eine Seite des Avesta Web Servers zu betrachten; in Abb. 6 ist die Quelle desselben Textes dargestellt.

    Abb. 5: Seite des Avesta Web Servers


     
     

    Abb. 6: Quelle der in Abb. 5 abgebildeten WWW-Seite

     
    <H1>AVESTA: VENDIDAD</H1> 
    <H2>Fargard 1.</H2> 
    <DL><DT>1 <DD>mraot ahur&ocirc; mazd&aring; spitam&acirc;i zarathushtr&acirc;i, azem dadh&atilde;m spitama zarathushtra as&ocirc; r&acirc;m&ocirc; d&acirc;it&icirc;m n&ocirc;it kudat sh&acirc;it&icirc;m, &yacute;eidhiz&icirc; azem n&ocirc;it daidhy&atilde;m spitama zarathushtra as&ocirc; r&acirc;m&ocirc;d&acirc;it&icirc;m n&ocirc;it kudat sh&acirc;it&icirc;m v&icirc;sp&ocirc; anghush astv&aring; airyanem va&ecirc;j&ocirc; fr&acirc;shnv&acirc;t. 
    <DT>2 <DD>paoir&icirc;m asangh&atilde;mca sh&ocirc;ithran&atilde;mca vahishtem fr&acirc;thweresem azem &yacute;&ocirc; ahur&ocirc; mazd&aring; airyanem va&ecirc;j&ocirc; vanghuy&aring; d&acirc;ityay&aring;. &acirc;at ahe paity&acirc;rem fr&acirc;ke-re&ntilde;tat angr&ocirc; mainyush pourumahrk&ocirc; azhimca &yacute;im raoidhitem zy&atilde;mca da&ecirc;v&ocirc;d&acirc;tem, 
     
    So einfallsreich die von J.H. PETERSON benutzte Codierung auch sein mag (vgl. , wo dh für , und â für  und  stehen), ist sie für die phonetisch detaillierte Avesta-Schrift doch in keiner Weise ausreichend. Bestimmte Buchstaben werden hier einfach durch andere ersetzt und manche Unterscheidungen ganz vernachlässigt (wie  in mraot statt ), auf die man zur Not vielleicht verzichten könnte. Gewisse Differenzierungen spielen jedoch eine wichtige Rolle in avestischen Sprachsystem, und sie kann man nicht ohne weiteres entbehren: so z.B. die verschiedenen Sibilanten, s,, ö, , von denen die beiden letzteren immer durch sh ersetzt worden sind, oder die völlig voneinander unabhängigen Vokale e und , die in diesem Text ausnahmlos als e erscheinen. § 5.2. Sonderzeichen unter WP Eine genauere Transkription desselben Textes nach der Originalausgabe von Geldner sieht man in der folgenden Abb. (7). Hierbei handelt es sich um die elektronische Aufarbeitung von S. (GIPPERT)-FRITZ, die sowohl im WP-Format als auch in einer Eins-zu-eins-8-Bit-Wiedergabe zu Verfügung steht. Die Eingabe und Codierung des Textes machen unter WP keine besonderen Schwierigkeiten; jedoch ist WP kein Standard, so daß für einen weiten Austausch weniger geeignet scheint.

    Abb. 7: Seite der Abb. 5 in WP- und ASCII-Format


     
    (WP-Format)
    (ASCII-Format: für WordCruncher und HTML)
     
    § 5.3. Sonderzeichen im 8-Bit-Format
    Die Wiedergabe im 8-Bit-Format hat ungefähr dieselben Vor- und Nachteile wie diejenige mit WP; hinzu kommt die nicht standardisierte Codierung, die auf der Basis von US-ASCII mithilfe einer Neudefinition des oberen Bereichs (Zeichen 128-255) für TITUS entwickelt wurde, damit unter DOS laufende Verwaltungsprogramme (wie WordCruncher) auf die Texte zugreifen können. Die Codierung des oberen Bereichs muß sich, wie oben dargestellt, bei einer 8-Bit-Verwaltung von Sprache zu Sprache ändern, um deren alphabetischen Bedürfnisse zu erfüllen. Die von TITUS benutzte 8-Bit-Codierung ermöglicht insoweit eine Eins-zu-Eins-Wiedergabe der Daten in Originalschrift bzw. Transkription und erweist sich zugleich als nützlich, wenn es darum geht, Datenbanken anzulegen.

    In Abb. 8, 9 und 10 sind als Beispiele drei Zeichensätze angeführt (andere sind über den TITUS-Server www.rz.uni-frankfurt.de/TITUS beziehbar). Die US-ASCII-Zeichen (untere Reihe) bleiben dabei bis auf wenige Ausnahmen unverändert. Der obere Bereich enthält die vom entsprechenden Alphabet benötigten Zusatzzeichen; sie sollten für die verschiedenen Disziplinen (Arabistik, Gräzistik, Hebraistik, Slavistik, Indoiranistik, Orientalistik, usw.) ausreichen.

    Abb. 8: Indoiranistik-Zeichensatz von TITUS


     
     

    Abb. 9: Griechisch-Zeichensatz von TITUS

     
     

    Abb. 10: Christlicher-Oriens-Zeichensatz von TITUS

     
     
    § 5.4. Schlußfolgerungen. Mindestanforderungen
    Obwohl alle bisher vorgestellten Codierungsversuche für die sprachliche Aufarbeitung genügen müßten, wenn sie nur konsequent eingesetzt würden, gehen doch die wissenschaftlichen (und vielleicht industriellen) Forderungen über sie hinaus und verlangen eine Codierung, die nicht nur einen für alle jemals von Menschen benutzten Schriftsymbole ausreichenden Vorrat liefert, sondern auch entsprechende Zuweisungen enthält, so daß die Sprachen (bzw. Alphabete) als Unikat behandelt werden, um Vertauschungen oder Uneindeutigkeiten zu vermeiden. Solche Forderungen würden sich erübrigen, wenn sich die Norm ISO 10646 durchsetzen würde und Betriebssysteme und Programme sie unter Voraussetzung des in § 4.2. gesagten übernehmen und unterstützen würden. Warten müssen wir außerdem auch auf multilinguale Programme, die auf allen drei Funktionsebenen, d.h. der Eingabe, Darstellung und Datenverarbeitung/-Verwaltung in gleichem Maße eingesetzt werden können. Bisher haben wir uns mit Programmen begnügen müssen, die entweder allein zur Textverarbeitung oder allein als Datenbank tauglich sind, ohne jedoch eine Interaktion zwischen den beiden Funktionen zu ermöglichen. Das procedere der weiteren wissenschaftlichen Zusammenarbeit muß infolgedessen erneut überdacht werden, solange wir noch unter den alten Bedingungen weiterarbeiten müssen. Leider hat die Erfahrung gelehrt, daß es nicht einfach ist, uns alle davon zu überzeugen, daß ein einheitliches System notwendig ist. Jeder besteht darauf, bei dem alten vertrauten System zu bleiben, auch wenn es nicht so gut nutzbare Optionen hat wie das des anderen und zugleich eine viel kompliziertere Handhabung erfordert. Diese Überlegungen sollten Anlaß geben, eine Norm für unsere dringendsten Bedürfnisse zu schaffen, damit wir unsere gemeinsamen Daten etwa mithilfe einer einfachen Konvertierungsroutine in unser gewohntes Textverarbeitungsprogramm laden oder in die Datenbank aufnehmen können.

    § 6. Datenauschtauschformat
    Das vorzuschlagende Format muß natürlich einige wenige Forderungen erfüllen, um eine unbeschränkte Auschtauschbarkeit zu gewährleisten.

    § 6.1. Voraussetzungen für die zu benutzende Codierung
    Da wir gesehen haben, wie problematisch der Einsatz einer 8-Bit-Codierung sein kann (der obere Zeichenbereich ist von System zu System anders zu definieren), müssen wir uns zunächst noch auf die 7-Bit-Codierung beschränken, die überall gleich ist. In der Tat bleiben die Zeichen des unteren Bereichs (zumindest von 32 bis 127; s. Abb. 1) immer dieselben, und es kann nicht passieren, daß eines von ihnen falsch interpretiert oder gar in anderer Weise als das Original übertragen wird. Soviel über den zu benutzenden Basiszeichensatz. Um die teilweise komplizierten von uns benötigten Buchstabenkombinationen zu bestimmen, müssen wir eine eindeutige Codierung schaffen, die das gemeinte Zeichen jederzeit exakt abrufbar macht. Es ist dabei nicht unbedingt notwendig, auf eine Eins-zu-Eins-Wiedergabe der Daten abzuzielen, sondern es geht allein darum, eine umkehrbar-eindeutige Codierung anzustreben. Mit der Umkehrbarkeit muß die Konvertierung in beliebige Formate ermöglicht werden; denn die Eindeutigkeit hat selbst zweierlei Auswirkungen: die eine ist, daß unabhängig vom jeweiligen System/Programm durch einen Code immer ein und dasselbe Zeichen dargestellt wird, die andere, daß eine mögliche Vertauschung/Mißinterpretation absolut ausgeschlossen bleibt. § 6.2. Voraussetzungen der elektronischen Übertragung und Überlieferung Die neuen Wege der Übertragung sind alle elektronischer Natur, und in der Anpassung unserer Daten an dieses neue Medium besteht der Vorteil, diese in unversehrter Gesamtheit weiter tradierbar halten zu können. Das Internet, die globale Datenautobahn, nimmt nur solche Information an, die als Folge von Bytes repräsentiert sind; zudem muß diese Oktetenfolge einem codierten Zeichensatz zugewiesen werden, damit eine Entschlüsselung der zu übertragenden Zeichen stattfinden kann. Dieser Umstand zwingt uns wiederum, mit der 7-Bit-Codierung weiterzuarbeiten, da es, wie gesagt, nicht allgemeiner Usus der Programme ist, die 8-Bit-Codierung (ISO 8859-1) zu unterstützen (s. § 2.3).

    § 7. Codierungsvorschlag: TITUS Transkriptionssysteme
    In den folgenden Tabellen findet man Transkriptionssysteme für verschiedene Disziplinen,7 in denen lediglich das Prinzip der eindeutigen Codierung herrscht, das die erwünschte Konvertierbarkeit mit sich bringt.

    § 7.1 TITUS Transkriptionssystem für Altindisch (Sanskrit)
    Das Unternehmen, eine reine ASCII-Codierung für das Sanskrit zu schaffen, ist fast so alt wie die Einführung der ASCII-Codierung selbst. Inzwischen kennt man verschiedene Codierungssysteme, die dasselbe anbieten, aber jeweils in verschiedener Normierung. Die geläufigsten Systeme sind in der folgenden Tabelle verzeichnet: KH steht für das Kyoto-Harvard System, PSZ steht für dasjenige von Peter Schreiner (Zürich) (es ist unter TEX-Benutzern sehr verbreitet), und FV steht für das von Franz Velthuis. Alle diese Systeme wurden letztlich für das klassische Sanskrit konzipiert und berücksichtigen nicht die akzentuierten Texte. Das Transkriptionssystem von TITUS hat insofern wesentliche Vorteile, als es ermöglicht, nicht nur die bloßen Buchstaben, sondern auch die Akzentkombinationen zu bezeichen. Außerdem fügt das TITUS-Transkriptionssystem andere Sonderzeichen hinzu, die für eine sprachwissenschaftliche Analyse der altindischen Materialien von dringender Notwendigkeit sind.8

    § 7.2 TITUS Transkriptionssystem für Altiranisch (Indoiranistik)

    § 7.3 TITUS Transkriptionssystem für Armenisch


    Anmerkungen:

    Anm. 1: Eine Gesamtdarstellung der ISO 8859-X Tabellen kann man unter www.cs.tu-berlin.de/~czyborra/charsets/ finden.

    Anm. 2: Zu SGML s. CH. GOLDFARB: The SGML Handbook, OUP; zu MIME s. D. GOLDSMITH: Using Unicode with MIME; http://ds.internic.net/rfc/rfc1641; N. BORENSTEIN / N. FREED: MIME (Multipurpose Internet Mail Extensions) Part 1; http://ds.internic.net/rfc/rfc1521.ps; K. MOORE: MIME (Multipurpose Internet Mail Extensions) Part 2; http://ds.internic.net/rfc/rfc1522.txt.

    Anm. 3: In der Tabelle der S. xxx. werden die im HTML-Format unterstützten Sonderzeichen gezeigt. S. dazu auch die HTML specification, IETF RFC 1866 unter ftp://ds.internic.net/rfc/rfc1866.txt.

    Anm. 4: Etwas ähnliches betrifft das Protokoll TCP, das ISO 8859-1 unterstützt, aber normalerweise sehen die Programmierer von der oberen Reihe ab, und so wird TCP als 7-Bit Protokoll benutzt, obwohl es eigentlich ein ausgebautes 8-Bit Protokoll ist.

    Anm. 5: Erst vor kurzem habe ich von MASS (Multilingual Application Support Service) erfahren, das sich als Textverarbeitungsprogramm mit implementiertem UNICODE anbietet; s. www.iss.nus.sg/RND/MLP/Projects/MASS/MASS.html. Verweise auf andere Produkte sind unter der Adresse www.pls.com/dcstug/index.html verfügbar.

    Anm. 6: Sie sind unter www.rz.uni-frankfurt.de/titus/software/d-softwa.htm#ttfonts verfügbar.

    Anm. 7: Das griechische Corpus ist fast vollständig verfügbar in dem sog. Beta-Format. S. den TLG-Server unter www.uci.edu:80/~tlg/, für das Beta-Format s. www.tlg.uci.edu/~tlg/BetaCode.html.

    Anm. 8: Ein Beispiel für eine solche Analyse bietet J. GIPPERT in Fs. J. Schindler.


    Benutzte Quellen:

  • Jost GIPPERT: «Das Projekt eines indogermanistischen Thesaurus», LDV-Forum, Forum der Gesellschaft für Linguistische Datenverarbeitung, Bd. 12/1, Juni 1995, S. 35-49; auch unter www.rz.uni-frankfurt.de/titus/public_html/texte/titusldv.htm.
  • «Von der Keilschrifttafel zur Textdatenbank», Forschung Frankfurt 4/1995, 47ñ56; auch unter www.rz.uni-frankfurt.de/titus/texte/forschffm/049546.htm
  • www.rz.uni-frankfurt.de/titus/public_html
  • www.ebt.com:8080/docs/multilingual-www.html
  • www.w3.org/hypertext/WWW/International/Overview.html
  • www.infocom.net/~bbs/iso8859.html
  • www.cs.tu-berlin.de/~czyborra/charsets/
  • http://www.yajima.kuis.kyoto-u.ac.jp/staffs/yasuoka/CJK.html
  • ftp://ftp.vlsivie.tuwien.ac.at/pub/8bit/FAQ-ISO-8859-1
  • ftp://ds.internic.net/rfc/rfc1866.txt


  • § 8. Anhang
    The HTML Coded Character Set (vgl. ftp://ds.internic.net/rfc/rfc1866.txt)
    
    
    
       This list details the code positions and characters of the HTML
    
       document character set, specified in 9.5, "SGML Declaration for
    
       HTML". This coded character set is based on [ISO-8859-1].
    
    
    
        REFERENCE       DESCRIPTION
    
        --------------  -----------
    
        &#00;
    
          - &#08;   Unused
    
        &#09;       Horizontal tab
    
        &#10;       Line feed
    
        &#11;
    
          - &#12;   Unused
    
        &#13;       Carriage Return
    
        &#14;
    
          - &#31;   Unused
    
                    Space
    
        !           Exclamation mark
    
        "           Quotation mark
    
        #           Number sign
    
        $           Dollar sign
    
        %           Percent sign
    
        &           Ampersand
    
        '           Apostrophe
    
        (           Left parenthesis
    
        )           Right parenthesis
    
        *           Asterisk
    
        +           Plus sign
    
        ,           Comma
    
        -           Hyphen
    
        .           Period (fullstop)
    
        /           Solidus (slash)
    
        0 - 9   Digits 0-9
    
        :           Colon
    
        ;           Semi-colon
    
        <           Less than
    
        =           Equals sign
    
        >           Greater than
    
        ?           Question mark
    
        @           Commercial at
    
        A - Z   Letters A-Z
    
        [           Left square bracket
    
        \           Reverse solidus (backslash)
    
        ]           Right square bracket
    
        ^           Caret
    
        _           Horizontal bar (underscore)
    
        `           Acute accent
    
        a - z  Letters a-z
    
        {          Left curly brace
    
        |          Vertical bar
    
        }          Right curly brace
    
        ~          Tilde
    
         - Ÿ Unused
    
                   Non-breaking Space
    
        ¡          Inverted exclamation
    
        ¢          Cent sign
    
        £          Pound sterling
    
        ¤          General currency sign
    
        ¥          Yen sign
    
        ¦          Broken vertical bar
    
        §          Section sign
    
        ¨          Umlaut (dieresis)
    
        ©          Copyright
    
        ª          Feminine ordinal
    
        «          Left angle quote, guillemotleft
    
        ¬          Not sign
    
        ­          Soft hyphen
    
        ®          Registered trademark
    
        ¯          Macron accent
    
        °          Degree sign
    
        ±          Plus or minus
    
        ²          Superscript two
    
        ³          Superscript three
    
        ´          Acute accent
    
        µ          Micro sign
    
        ¶          Paragraph sign
    
        ·          Middle dot
    
        ¸          Cedilla
    
        ¹          Superscript one
    
        º          Masculine ordinal
    
        »          Right angle quote, guillemotright
    
        ¼          Fraction one-fourth
    
        ½          Fraction one-half
    
        ¾          Fraction three-fourths
    
        ¿          Inverted question mark
    
        À          Capital A, grave accent
    
        Á          Capital A, acute accent
    
                  Capital A, circumflex accent
    
        à         Capital A, tilde
    
        Ä          Capital A, dieresis or umlaut mark
    
        Å          Capital A, ring
    
        Æ          Capital AE dipthong (ligature)
    
        Ç          Capital C, cedilla
    
        È          Capital E, grave accent
    
        É          Capital E, acute accent
    
        Ê          Capital E, circumflex accent
    
        Ë          Capital E, dieresis or umlaut mark
    
        Ì          Capital I, grave accent
    
        Í          Capital I, acute accent
    
        Π         Capital I, circumflex accent
    
        Ï          Capital I, dieresis or umlaut mark
    
        Р         Capital Eth, Icelandic
    
        Ñ          Capital N, tilde
    
        Ò          Capital O, grave accent
    
        Ó          Capital O, acute accent
    
        Ô          Capital O, circumflex accent
    
        Õ          Capital O, tilde
    
        Ö          Capital O, dieresis or umlaut mark
    
        ×          Multiply sign
    
        Ø          Capital O, slash
    
        Ù          Capital U, grave accent
    
        Ú          Capital U, acute accent
    
        Û          Capital U, circumflex accent
    
        Ü          Capital U, dieresis or umlaut mark
    
        Ý          Capital Y, acute accent
    
        Þ          Capital THORN, Icelandic
    
        ß          Small sharp s, German (sz ligature)
    
        à          Small a, grave accent
    
        á          Small a, acute accent
    
        â          Small a, circumflex accent
    
        ã          Small a, tilde
    
        ä          Small a, dieresis or umlaut mark
    
        å          Small a, ring
    
        æ          Small ae dipthong (ligature)
    
        ç          Small c, cedilla
    
        è          Small e, grave accent
    
        é          Small e, acute accent
    
        ê          Small e, circumflex accent
    
        ë          Small e, dieresis or umlaut mark
    
        ì          Small i, grave accent
    
        í          Small i, acute accent
    
        î          Small i, circumflex accent
    
        ï          Small i, dieresis or umlaut mark
    
        ð          Small eth, Icelandic
    
        ñ          Small n, tilde
    
        ò          Small o, grave accent
    
        ó          Small o, acute accent
    
        ô          Small o, circumflex accent
    
        õ          Small o, tilde
    
        ö          Small o, dieresis or umlaut mark
    
        ÷          Division sign
    
        ø          Small o, slash
    
        ù          Small u, grave accent
    
        ú          Small u, acute accent
    
        û          Small u, circumflex accent
    
        ü          Small u, dieresis or umlaut mark
    
        ý          Small y, acute accent
    
        þ          Small thorn, Icelandic
    
        ÿ          Small y, dieresis or umlaut mark
    
    
    
    
    
    
    
    Proposed Entities    The HTML DTD references the "Added Latin 1" entity set, which only    supplies named entities for a subset of the non-ASCII characters in    [ISO-8859-1], namely the accented characters. The following entities    should be supported so that all ISO 8859-1 characters may only be    referenced symbolically. The names for these entities are taken from    the appendixes of [SGML].     &nbsp;         " " -- no-break space      &iexcl;        "¡" -- inverted exclamation mark      &cent;         "¢" -- cent sign      &pound;        "£" -- pound sterling sign      &curren;       "¤" -- general currency sign      &yen;          "¥" -- yen sign      &brvbar;       "¦" -- broken (vertical) bar      &sect;         "§" -- section sign      &uml;          "¨" -- umlaut (dieresis)      &copy;         "©" -- copyright sign      &ordf;         "ª" -- ordinal indicator, feminine      &laquo;        "«" -- angle quotation mark, left      &not;          "¬" -- not sign      &shy;          "­" -- soft hyphen      &reg;          "®" -- registered sign      &macr;         "¯" -- macron      &deg;          "°" -- degree sign      &plusmn;       "±" -- plus-or-minus sign      &sup2;         "²" -- superscript two      &sup3;         "³" -- superscript three      &acute;        "´" -- acute accent      &micro;        "µ" -- micro sign      &para;         "¶" -- pilcrow (paragraph sign)      &middot;       "·" -- middle dot      &cedil;        "¸" -- cedilla      &sup1;         "¹" -- superscript one      &ordm;         "º" -- ordinal indicator, masculine      &raquo;        "»" -- angle quotation mark, right      &frac14;       "¼" -- fraction one-quarter      &frac12;       "½" -- fraction one-half      &frac34;       "¾" -- fraction three-quarters      &iquest;       "¿" -- inverted question mark      &Agrave;       "À" -- capital A, grave accent      &Aacute;       "Á" -- capital A, acute accent      &Acirc;        "Â" -- capital A, circumflex accent      &Atilde;       "Ã" -- capital A, tilde      &Auml;         "Ä" -- capital A, dieresis or umlaut mark      &Aring;        "Å" -- capital A, ring      &AElig;        "Æ" -- capital AE diphthong (ligature)      &Ccedil;       "Ç" -- capital C, cedilla      &Egrave;       "È" -- capital E, grave accent      &Eacute;       "É" -- capital E, acute accent      &Ecirc;        "Ê" -- capital E, circumflex accent      &Euml;         "Ë" -- capital E, dieresis or umlaut mark      &Igrave;       "Ì" -- capital I, grave accent      &Iacute;       "Í" -- capital I, acute accent      &Icirc;        "Î" -- capital I, circumflex accent      &Iuml;         "Ï" -- capital I, dieresis or umlaut mark      &ETH;          "Ð" -- capital Eth, Icelandic      &Ntilde;       "Ñ" -- capital N, tilde      &Ograve;       "Ò" -- capital O, grave accent      &Oacute;       "Ó" -- capital O, acute accent      &Ocirc;        "Ô" -- capital O, circumflex accent      &Otilde;       "Õ" -- capital O, tilde      &Ouml;         "Ö" -- capital O, dieresis or umlaut mark      &times;        "×" -- multiply sign      &Oslash;       "Ø" -- capital O, slash      &Ugrave;       "Ù" -- capital U, grave accent      &Uacute;       "Ú" -- capital U, acute accent      &Ucirc;        "Û" -- capital U, circumflex accent      &Uuml;         "Ü" -- capital U, dieresis or umlaut mark      &Yacute;       "Ý" -- capital Y, acute accent      &THORN;        "Þ" -- capital THORN, Icelandic      &szlig;        "ß" -- small sharp s, German (sz ligature)      &agrave;       "à" -- small a, grave accent      &aacute;       "á" -- small a, acute accent      &acirc;        "â" -- small a, circumflex accent      &atilde;       "ã" -- small a, tilde      &auml;         "ä" -- small a, dieresis or umlaut mark      &aring;        "å" -- small a, ring      &aelig;        "æ" -- small ae diphthong (ligature)      &ccedil;       "ç" -- small c, cedilla      &egrave;       "è" -- small e, grave accent      &eacute;       "é" -- small e, acute accent      &ecirc;        "ê" -- small e, circumflex accent      &euml;         "ë" -- small e, dieresis or umlaut mark      &igrave;       "ì" -- small i, grave accent      &iacute;       "í" -- small i, acute accent      &icirc;        "î" -- small i, circumflex accent      &iuml;         "ï" -- small i, dieresis or umlaut mark      &eth;          "ð" -- small eth, Icelandic      &ntilde;       "ñ" -- small n, tilde      &ograve;       "ò" -- small o, grave accent 

    El diseño de la página y las imágenes son
    © 1996-2000, Universitat de València Press
    © del grupo "mmm"
    Comentarios a: fores@uv.es
    València  15th September 2000