File: ANNOUNCE

package info (click to toggle)
hkgerman 2-7.1
  • links: PTS
  • area: main
  • in suites: potato
  • size: 1,344 kB
  • ctags: 6
  • sloc: makefile: 104; perl: 64; sh: 40; sed: 15
file content (105 lines) | stat: -rw-r--r-- 4,453 bytes parent folder | download | duplicates (13)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
-------------------------------------------------------------------------
			     hk2-deutsch
	  Ein deutsches W"orterbuch zur Rechtschreibkontrolle
		       mit dem Programm ispell
			     (Version 2)
-------------------------------------------------------------------------

Die Datei

ftp.informatik.uni-kiel.de:/pub/kiel/dicts/hk2-deutsch.tar.gz

enthaelt die Version 2 der deutschen Wortlisten, vorbereitet fuer die
Version 3 des Programms ispell.

Im Vergleich zu der ersten Version von hk-deutsch wurden weitere
fehlerhafte Worte entfernt, gebr"auchliche Worte hinzugef"ugt und die
Aufteilung in Teilw"orterb"cher vorangetrieben.

-------------------------------------------------------------------------
Aus dem README:

Bei einer automatischen Rechtschreibkontrolle sollen Schreibfehler in
einem Text von einem Pr"ufprogramm gefunden werden. Die korrekte
Schreibweise wird dazu in einem W"orterbuch hinterlegt. 

Bei der Zusammenstellung des W"orterbuchs sind jedoch die drei
folgenden Kriterien zu ber"ucksichtigen.

1) Voraussetzung f"ur zuverl"assige Ergebnisse ist, da"s das
W"orterbuch selbst m"oglichst keine Fehler enth"alt. 

2) Das W"orterbuch mu"s einen breiten Wortschatz abdecken. Andernfalls wird
das Pr"ufprogramm viele korrekte W"orter eines Textes als falsch
abweisen, die nicht in dem W"orterbuch enthalten sind. Dieses Verhalten
ist l"astig und versperrt den Blick auf die wahren Fehler.

3) Es ist notwendig, da"s ein W"orterbuch nicht zu viele W"orter
enth"alt. Zum einen kann ein selten verwendetes Wort gerade so
geschrieben werden wie ein falsch geschriebenes Wort in dem zu
pr"ufenden Text, welches dann nicht als fehlerhaft erkannt wird. Zum
anderen belastet ein sehr gro"ses W"orterbuch den Arbeitsspeicher eines
Computers evtl. so sehr, da"s die Pr"ufung unertr"aglich lange dauert.

Eigenschaften
-------------

Ich habe dieses W"orterbuch hk2-deutsch unter den oben genannten Kriterien
zusammengestellt. Besonderen Wert habe ich auf die Punkte 2 und 3
gelegt.

Um Fehler auszumerzen, habe ich zum einen durch Suchen nach falsch
klingenden Zeichenketten bzw. regul"aren Ausdr"ucken die zu
betrachtenden W"orter eingegrenzt. Zum anderen habe ich gro"se Teile
Wort f"ur Wort durchgesehen. Hilfreich waren auch die zahlreichen
R"uckmeldungen, die ich zur 1. Version dieses W"orterbuchs erhalten
habe.

Dieses W"orterbuch liegt nicht als eine gro"se Datei vor, sondern die
W"orter sind nach verschiedenen Kriterien in einzelne Dateien
aufgeteilt. Dadurch wird es m"oglich, ein relativ kleines W"orterbuch
zusammenzustellen, das den individuellen Anforderungen leichter
gen"ugt.

Inhalt der Teilw"orterb"ucher
-----------------------------

Es folgt eine Beschreibung der einzelnen Dateien und der Kriterien,
nach denen die Aufteilung der Worte vorgenommen wurde.

gross		gro"s geschriebene Worte, hoffentlich nur noch Substantive
verben		Verbformen, keine Befehlsformen
adjektive	Adjektive
klein           Zahlworte, F"urworte, ...
imperat         gebr"auchliche Befehlsformen
abkuerz         gebr"auchliche Abk"urzungen
vornamen        gebr"auchliche Vornamen
geographie	gebr"auchliche geographische Begriffe
latein          lateinische Redewendungen (et cetera)
oesterreich	in "Osterreich gebr"auchliche Worte
informatik      Fachbegriffe aus dem Bereich der Datenverarbeitung
infoabk         gebr"auchliche Abk"urzungen aus dem EDV Bereich
elektronik      Fachbegriffe und Abk"urzungen aus dem Bereich Elektronik
alphabeta	einige griechische Buchstaben
roemisch	einige r"omische Zahlen
orgabk          Abk"urzungen als Bezeichnung von Organisationen 
marken          Namen von Firmen und Produkten
worte2		weitere Substantive (noch unvollst"andig)
zusammen        zusammengesetzte Begriffe (sehr gemischt und wenig gepr"uft)
technik         teilweise merkw"urdige technische Begriffe 
compeng         Computer-Englisch, insbesondere deutsch-englische Mischw"orter
geogra2         weitere geographische Begriffe
vornam2         weitere Vornamen
namen           Nachnamen bekannter Personen, G"otter, Sagengestalten, ...
abkuerz2        weitere Abk"urzungen
seltenes        wirklich seltene Worte, ungebr"auchliche Beugungsformen

Die Dateien gross, verben, adjektive, klein, imperat und abkuerz
dienen als Grundlage f"ur ein W"orterbuch, das evtl. mit weiteren
Teilw"orterb"uchern angereichert werden mu"s.


--Heinz

Heinz Knutzen                    E-mail: hk@informatik.uni-kiel.d400.de
Lange Reihe 14c, 24244 Felm