1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180
|
**********************************************
igerman98
*****************
Ein deutsches Wörterbuch zur Rechtschreibkontrolle nach den neuen
Rechtschreibregeln mit den Programmen Ispell oder Aspell
**********************************************
Bei einer automatischen Rechtschreibkontrolle sollen Schreibfehler in
einem Text von einem Prüfprogramm gefunden werden. Die korrekte
Schreibweise wird dazu in einem Wörterbuch hinterlegt.
Bei der Zusammenstellung des Wörterbuchs sind jedoch die drei
folgenden Kriterien zu berücksichtigen.
1. Voraussetzung für zuverlässige Ergebnisse ist, dass das
Wörterbuch selbst möglichst keine Fehler enthält.
2. Das Wörterbuch muss einen breiten Wortschatz abdecken. Andernfalls wird
das Prüfprogramm viele korrekte Wörter eines Textes als falsch
abweisen, die nicht in dem Wörterbuch enthalten sind. Dieses Verhalten
ist lästig und versperrt den Blick auf die wahren Fehler.
3. Es ist notwendig, dass ein Wörterbuch nicht zu viele Wörter
enthält. Zum einen kann ein selten verwendetes Wort gerade so
geschrieben werden wie ein falsch geschriebenes Wort in dem zu
prüfenden Text, welches dann nicht als fehlerhaft erkannt wird. Zum
anderen belastet ein sehr großes Wörterbuch den Arbeitsspeicher eines
Computers evtl. so sehr, dass die Prüfung unerträglich lange dauert.
**** Eigenschaften ****
Dieses Wörterbuch liegt nicht als eine große Datei vor, sondern die
Wörter sind nach verschiedenen Kriterien in einzelne Dateien
aufgeteilt. Dadurch wird es möglich, ein relativ kleines Wörterbuch
zusammenzustellen, das den individuellen Anforderungen leichter
genügt. Nicht zuletzt ist das Gesamtwerk so besser zu warten.
Außerdem sind Schreibweisen, die alternativ zu `alten' Schreibweisen
existieren in separaten Wörterbuchdateien. So ist es möglich,
`progressive' Schreibweisen wie `Delfin' zu erzwingen, indem man die
älteren Schreibweisen (`Delphin') deaktiviert. Wem `Delfine' oder
`Jogurts' nicht gefallen kann natürlich auch die progressiveren
Schreibweisen deaktivieren und fortan seine Delphine mit Joghurt
füttern. (vgl. INSTALL - Datei)
**** Inhalt der Teilwörterbücher ****
Es folgt eine Beschreibung der einzelnen Dateien und der Kriterien,
nach denen die Aufteilung der Worte vorgenommen wurde.
abkuerzpunkt Abkürzungen, die einen Punkt am Ende erfordern (etc., usw.)
abkuerzungen gebräuchliche Abkürzungen
abkuerz2 weitere Abkürzungen
adjektive Adjektive
alphabeta einige griechische Buchstaben
anglizismen mehr oder weniger notwendige Anglizismen
austriazismen in Österreich gebräuchliche Worte
helvetismen in der Schweiz gebräuchliche Worte
compeng Computer-Englisch, insbesondere deutsch-englische Mischwörter
elektronik Fachbegriffe und Abkürzungen aus dem Bereich Elektronik
geografie2 weitere geografische Begriffe
geografie gebräuchliche geografische Begriffe
infoabk gebräuchliche Abkürzungen aus dem EDV Bereich
informatik Fachbegriffe aus dem Bereich der Datenverarbeitung
klein Zahlworte, Fürworte, ...
latein lateinische Redewendungen (et cetera)
marken Namen von Firmen und Produkten
mathematik mathematische Begriffe
medizin medizinische Fachbegriffe (noch sehr leer!)
namen Nachnamen bekannter Personen, Götter, Sagengestalten, ...
namen2 weitere Namen
orgabk Abkürzungen als Bezeichnung von Organisationen
roemisch einige römische Zahlen
seltenes wirklich seltene Worte, umgangssprachliche Wörter
technik technische Begriffe
typos Wörter die falsch geschrieben sind und nie ins Wörterbuch sollten
verben Verbformen
vornamen gebräuchliche Vornamen
vornamen2 weitere Vornamen
worte Substantive und ähnliches
worte2 weitere, weniger gebräuchliche Substantive
zusammen zusammengesetzte Begriffe (sehr gemischt)
**** Verbesserungsvorschläge ****
Ich möchte das Wörterbuch weiter pflegen, um regelmäßig neue, verbesserte
Versionen zu veröffentlichen. Dafür sendet mir bitte
- Hinweise auf fehlerhafte Worte oder Beugungsformen,
- Vorschläge zur Aufteilung in weitere Fachwörterbücher, z. B. Medizin
- Ergänzungen um fehlende gebräuchliche Worte.
Sendet Eure Vorschläge bitte an die unten angegebene E-Mail Adresse. Hilfreich
ist auch, mir einfach die .ispell_german Datei zu schicken (natürlich erst,
wenn schon einige Wörter drin sind), damit ich wichtige Worte aus
verschiedenen Beutzerwörterbüchern in dieses Wörterbuch übernehmen kann.
Die aktuelle Version ist immer hier zu finden:
http://lisa.goe.net/~bjacke/igerman98/dict/
**** Vorarbeiten ****
Dieses Wörterbuch basiert ursprünglich auf dem Ispell Wörterbuch von Heinz
Knutzen, das unter
ftp.informatik.uni-kiel.de:/pub/kiel/dicts/hk2-deutsch.tar.gz
zu finden ist. Heinz Knutzens Wörterbuch basiert wiederum auf Wörterbüchern
von Martin Schulz, die man z. B. unter
ftp.th-darmstadt.de:/pub/dicts/ispell/dictionaries/deutsch.tar.gz findet.
**** Ispell ****
Das Programm Ispell ist verfügbar von ftp://ftp.cs.ucla.edu:pub/.
Dieses Wörterbuch wurde mit der Ispell-Version 3.2.06 getestet.
Um Ispell auf Texte mit deutschen Umlauten anwenden zu können, ist es
je nach Kodierung mit der Option -Ttex, -Tlatin1 oder -Tutf8
aufzurufen. Weitere Kodierungen sind in der Datei `german.aff'
erläutert. Falls hauptsächlich deutsche Texte geprüft werden, so
sollte man die Environment-Variable `DICTIONARY' auf den Wert
`german' setzen. Dann braucht die Option `-d german' beim Aufruf von
ispell nicht mehr angegeben zu werden.
**** Aspell ****
Aspell geht bei seiner Arbeit dank seiner phonetischen Vergleiche deutlich
intelligenter als Ispell vor und löst Ispell hoffentlich bald ab. Zu finden
ist Aspell unter http://aspell.sourceforge.net . Obwohl Aspell noch im
Alphastadium steckt kann ich nur jedem empfehlen von Ispell auf Aspell
umzusteigen!
**** Verschiedenes ****
Ich habe meine Wörberbuch-Datei absichtlich `german' genannt, damit man sie
parallel zu dem `deutsch' Wörterbuch von Heinz Knutzen benutzen, und
so sowohl die alten als auch die neuen Rechtschreibregeln verwenden kann.
In Linux Debian Distributionen ist jedoch auch schon das alte Wörterbuch mit
`german' bezeichnet, weshalb bei Debian Distributionen dieses Wörterbuch
`ngerman' genannt wurde (analog zum ngerman.sty TeX Paket).
Via 'make isowordlist' ist es übrigens nun möglich eine riesige Datei zu
erstellen, in der alle Wörter und die abgeleiteten Wortformen enthalten
sind. Diese Datei namens `isowordlist' enthält dann ca. 300.000 Wörter und
eignet sich sehr gut z. B. zum Testen, ob die Benutzer eines Rechners
,sichere' Passwörter benutzen ;-)
Wer nicht glaubt, dass ein einfacher Taschenrechner auch eine Schreibmaschine
sein kann, sollte mal folgendes probieren:
grep -i ^[eghilos]*$ isowordlist | tr [eghilos] [3641705] \
| tr [EGHILOS] [3641705] | less
Wer über neue Versionen des Wörterbuchs informiert werden will, kann übrigens
einfach eine Mail an mich schicken und diesen Wunsch äußern.
Björn Jacke <bjoern@j3e.de>
PGP fingerprints: (encrypted mail is welcome)
RSA-Key: BC 64 6A AC E5 55 BC 4A BA D9 BD 75 50 F1 E0 5D
DSS-Key: 7A26 F4A0 DA1C 22B5 906A C7B8 768A 34B3 E848 7A39
http://j3e.de/ispell/igerman98/
|