1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92
|
Czech data for ispell
The dictionary is rapidly evolving - see ftp://ftp.vslib.cz/pub/unix/ispell/
for actual version!
esk data pro ispell
Vechny tyto soubory jsou ve stdiu pomrn rychlch zmn. Sledujte
ftp://ftp.vslib.cz/pub/unix/ispell/, kde jsou zveejovny nejnovj verze.
Slovnk je rozdlen na nsledujc sti:
hlavni.cat Pravideln skloovan podstatn jmna a pdavn jmna,
(vetn tch, kter maj krom pravidelnch tvar jeden
nebo vce tvar nepravidelnch), vechna slovesa, a
pslovce odvozen od pdavnch jmen flagem R
nepravid.cat Nepravideln podstatn jmna a pdavn jmna (jsou
uvedeny vechny tvary bez flag)
nesklon.cat Nesklonn podstatn a pdavn jmna (maj jedin tvar)
zajmena.cat Zjmena
cislovk.cat slovky
prislovc.cat Pslovce (krom pslovc odvozench z pdavnch jmen
flagem R)
predlozk.cat Pedloky (vetn vceslovnch)
spojky.cat Spojky (vetn vceslovnch)
citoslov.cat Citoslovce
castice.cat stice
zkratky.cat Inicilov zkratky a zkratky typu nap., apod.
nezaraz.cat Dosud nezaazen slova
krestni.cat Kestn jmna
prijmeni.cat esk pjmen
narstjaz.cat Jmna nrod, stt a jazyk
obce.cat Jmna obc v R
geogr.cat Zempisn jmna v R i ve svt, jmna mst mimo R
cizi.cat Ciz jmna
nazvy.cat Ostatn nzvy
Zdrojov soubor czech.a-z pro vytvoen slovnku pro ispell se zsk takto:
perl -pe 'print "echo "' *.cat | sh - | \
perl -pe 's/ +/\n/g; s/[{}\.]//g; s/-/\n/g' > czech.a-z
Slouen soubor se zpracuje pkazem buildhash:
buildhash czech.a-z czech.aff czech.hash
kter vytvo slovnk pro ispell. Po zkoprovn souboru czech.aff a
czech.hash do adrese, ve kterm ispell oekv slovnky, lze ispell
pouvat pkazem
ispell -d czech kontrolovan_soubor
Pokud pi nalezen neznmho slova pi kontrole textu zvolte monost
I)nsert, pid se slovo do souboru $HOME/.ispell_czech. Chcete-li pomoci
s vytvenm slovnku, zalete tento soubor (pokud mono vyitn od
nespisovnch a cizch slov a ppadnch HTML znaek nebo pkaz pro
TeX) na adresu Petr.Kolar@vslib.cz.
Pokud chcete pouze pispt k rozen slovnku a nechcete text zdlouhav
interaktivn kontrolovat, mete pout pkaz
ispell -d czech -l < kontrolovan_soubor > vstup
kter pracuje neinteraktivn a ulo do souboru vstup vechna slova
ze vstupnho souboru, kter nejsou obsaena ve slovnku spell checkeru.
Tento vstupn soubor zalete pro ely roziovn slovnku. Zaslejte
pouze slovnky vznikl kontrolou souasnch pevn spisovnch text
(Mcha nebo Neruda pravdpodobn nen na zvadu, ale teba Bible Kralick
u vhodn nen).
Rozdlen zdrojovho slovnku na sti je provedeno z toho dvodu, aby
bylo mon slovnk snadno doplovat (zatm ovem pome vce, kdy polete
syrov seznam neznmch slov):
Soubor vstup se slou se souborem hlavni.cat, retrogrdn setd
(slova se setd jako by byla napsan pozptku, aby se snadno doplovaly
flagy):
perl retro.p hlavni.cat vstup | perl sort.p | perl retro.p > hlavni1.cat
V souboru hlavni1.cat je pak teba (na dcch, kter neobsahuj dn
lomtko) doplnit flagy. Slova, kter do souboru nepat (pslovce apod.),
se potom pemst do jinch soubor. Na zvr se pipoj dosud nezaazen
slova do nezaraz.cat a vsledkem je nov verze souboru hlavni.cat:
grep -v / hlavni1.cat >> nezaraz.cat
grep / hlavni1.cat > hlavni.cat
Pro doplovn flag lze pout i skript blemma - viz soubor ceskeaff.txt.
Jeho innost je vak pomrn nzk a chybovost pomrn velk.
Petr.Kolar@vslib.cz
|