1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216
|
<meta charset="utf-8">
<link rel="stylesheet" href="doc.css"/>
<p><em>Collatinus 12 — guide</em></p>
<p><a href="index.html">index</a> précédent : <a href="server.html">Serveur</a> suivant : <a href="programmeurs.html">Pour les programmeurs</a></p>
<h1>Utilisation avancée</h1>
<p>Ce chapitre peut paraître obsolète. Depuis la version
12 de Collatinus, en effet, Collatinus dispose d'un
éditeur de données Qu'on peut utiliser pour ajouter ou
modifier des lemmes, gérer les formes irrégulières,
et adapter le lemmatiseur aux variantes graphiques
qu'a subies la langue après l'âge classique. Cet éditeur, nommé Ecce
(Ecce Collatinistarum Communitatis Editor) est disponible ici, et
il est accompagné d'une documentation qu'il est important de lire
avant de l'utiliser.</p>
<p>Pour faire son travail, Collatinus s'appuie sur une
collection de fichiers qui contiennent toutes les
connaissances nécessaires. À l'initialisation du
programme, ils sont tous lus, et les données mises
en listes et placées en mémoire vive.</p>
<p>Si on remarque une erreur ou une lacune dans les
résultats, et qu'on a des connaissances suffisantes en
gestion et édition de fichiers, on peut commencer à les
modifier. Il faut bien sûr prendre des précautions,
notamment <strong>en prenant soin de faire une copie de
sauvegarde avant toute intervention</strong> : on crée un
répertoire dont on note bien le chemin, et on y copie
les fichiers qu'on a l'intention de modifier. On peut
ainsi, en cas d'échec, les rétablir dans leur état
initial.</p>
<p>Les fichiers les plus importants sont détaillés ci-dessous.</p>
<h2>Le fichier morphos.la</h2>
<p>C'est un simple fichier dans lequel sont toutes les
morphologies possibles que peuvent prendre les formes
latines. Ainsi pour désigner une morphologie, on donne
le numéro de la ligne où elle se trouve. Par exemple,
la morphologie
<em>vocatif masculin singulier participe présent actif</em> est
désignée par le nombre <em>190</em>.</p>
<h2>le fichier modeles.la</h2>
<p>C'est de loin le plus important. Y sont placés tous les
modèles de flexion.</p>
<p>Un modèle est un ensemble de lignes. Chaque modèle est séparé
du précédent par une ligne vide.</p>
<p>Une ligne commençant par un point d'exclamation est un
commentaire. Lors de sa lecture, Collatinus n'en tient
pas compte.</p>
<p>Chaque ligne est bâtie sur le schéma <strong>clé:valeur</strong>
Tout ce qui précède <em>le premier caractère <strong>deux
points</strong></em> est la clé, le reste est la valeur.
La première clé doit être le nom du modèle. L'ordre
dans lequel apparaissent les autres clés n'a pas
d'importance, mais mieux vaut rester cohérent et garder
la même disposition.</p>
<h3>Les clés</h3>
<ul>
<li>modèle:nom-du-modèle Exemple : <strong>modele:uita</strong></li>
<li>Liste des radicaux :
R:<n1>:<n2>,<ch>
<ul>
<li>n1 : numéro du radical</li>
<li>n2 : nombre de caractères à ôter de la forme canonique</li>
<li>ch : chaîne à ajouter à la chaîne obtenue pour avoir le radical. S'il n'y a aucune chaîne à ajouter, la valeur est 0. exemple pour uita : <strong>R:1:1:0</strong>, ce qui signifie que pour le radical 1, on enlève un caractère à <em>uita</em>, ce qui donne <em>uit</em>, et on n'ajoute rien.</li>
</ul>
</li>
<li>désinences :
des:<intervalle>:<num>:<listeDes>
<ul>
<li>intervale : liste de n° de morphologies séparées
par des virgules, ou intervalle de numéros
<premier>–<dernier>. Les deux méthodes peuvent
voisiner dans un intervalle.</li>
<li>num : numéro du radical utilisé par ces désinences.</li>
<li>listeDes : liste des désiences. On peut ne donner qu'une fois une désinence qui se répète en fin de liste.</li>
</ul>
</li>
</ul>
<h3>Les variables</h3>
<p>Comme les mêmes séries de désinences sont souvent utilisées de nombreuses fois par
des modèles et des radicaux différents, on peut mettre ces séries en variables. Ainsi,
pour le modèle uita. Au lieu d'écrire :</p>
<pre><code>modele:uita
R:1:1,0
des:1-12:1:ă;ă;ăm;āe;āe;ā;āe;āe;ās;ārum;īs;īs
</code></pre>
<p>On définit une variable de cette manière :</p>
<pre><code>$<variable>:<valeurs>
</code></pre>
<p>Par exemple, pour définir la variable uita :</p>
<pre><code>$uita=ă;ă;ăm;āe;āe;ā;āe;āe;ās;ārum;īs;īs
</code></pre>
<p>et la définition du modèle deviendra :</p>
<pre><code>modele:uita
R:1:1,0
des:1-12:1:$uita
</code></pre>
<p>La variable $uita peut être utilisée pour le participe parfait :</p>
<pre><code>modele:amo
(radicaux, autres désinences)
des:315-326:2:$uita
</code></pre>
<h2>Le fichier lemmes.la</h2>
<p>C'est un gros fichier qui donne tous les mots latins, leur modèle,
leurs radicaux, et les indications morphologiques qui
apparaîtront dans l'analyse.</p>
<p>Chaque lemme occupe une seule ligne. Cinq champs sont séparés par
le caractère <strong>|</strong> :
1. la forme canonique du lemme ; si le dictionnaire
n'en donne pas toutes les quantités, on la réécrit
entièrement mesurée après le signe <strong>=</strong>.
2. son modèle, pris dans le fichier modeles.la ;
3. s'il n'est pas défini par modeles.la, son radical de
génitif, ou d'infectum pour les verbes ;
4. s'il n'est pas défini par modeles.la, son radical de
perfectum ;
5. ses indications morphologiques</p>
<p>Exemple :</p>
<pre><code>ablŭo=ā̆blŭo|lego|ā̆blŭ|ā̆blūt|is, ere, lui, lutum
</code></pre>
<h2>les irréguliers</h2>
<p>On place dans le fichier irregs.la les formes
irrégulières. On peut hésiter entre l'ajout d'une forme
dans ce fichier ou la définition d'un nouveau modèle.
Si plus de trois lemmes construisent une forme dite
irrégulière de la même manière, mieux vaut créer un
modèle. De même, si un lemme a plus de trois formes
irrégulières, mieux vaut créer un modèle pour ce lemme.</p>
<p>Le format est simple :</p>
<pre><code><forme>:<lemme>:<morphos>
</code></pre>
<ol>
<li>la forme doit être mesurée. On lui ajoute un
astérisque si c'est une forme irrégulière exclusive,
c'est à dire si la forme régulière correspondante
n'existe pas ;</li>
<li>Le lemme, sans ses quantités ;</li>
<li>La liste entre virgule des morphologies qui
utilisent cette forme. On peut utiliser la syntaxe des
intervalles de la clé <strong>des</strong> du fichier modeles.la.</li>
</ol>
<p>Exemples :</p>
<pre><code>ălĭud*:alius:37-39
āccēstĭs:accedo:143
āmbŏbŭs*:ambo:17,18,29,30,47,48
</code></pre>
<h2>les fichiers de traduction</h2>
<p>Les fichiers de traductions sont tous nommées
lemmes.??, les deux points d'interrogation étant deux
caractères qui servent à désigner la langue cible.
(fr=français, it=italien, etc.)</p>
<p>Leur format est extrêmement simple :
<lemme>:<traduction>
1. <strong>lemme</strong> : le lemme sans quantités ;
2. <strong>traduction</strong> : la traduction dans la langue cible.</p>
<h2>les fichiers de contraction et d'assimilation</h2>
<p>bin/data/assimilations.la et bin/data/contractions.la sont deux
fichiers qui permettent de déclarer</p>
<ul>
<li>Les assimilations : la forme <em>affert</em> n'est pas reconnue, mais
une règle d'assimilation permet de remplacer <em>-aff-</em>
par <em>-adf-</em>, et d'analyser aussi la forme
<em>adfert</em>, qui est reconnue.</li>
<li>Les contractions : la forme <em>amassem</em> n'est pas reconnue, mais une
règle de contraction permet de remplacer <em>-assem</em> par
<em>-auissem</em>, ce qui donne <em>amauissem</em>, qui est reconnu.</li>
</ul>
<p><a href="index.html">index</a> précédent : <a href="server.html">Serveur</a> suivant : <a href="programmeurs.html">Pour les programmeurs</a></p>
|