File: avancee.html

package info (click to toggle)
collatinus 12.2-2
links: PTS, VCS
area: main
in suites: forky, sid, trixie
size: 18,348 kB
sloc: cpp: 8,004; sh: 89; makefile: 38
file content (216 lines) | stat: -rw-r--r-- 7,737 bytes
parent folder | download | duplicates (2)
<meta charset="utf-8">
<link rel="stylesheet" href="doc.css"/>
<p><em>Collatinus 12 &mdash; guide</em></p>

<p><a href="index.html">index</a> précédent : <a href="server.html">Serveur</a> suivant : <a href="programmeurs.html">Pour les programmeurs</a></p>

<h1>Utilisation avancée</h1>

<p>Ce chapitre peut paraître obsolète. Depuis la version
12 de Collatinus, en effet, Collatinus dispose d'un
éditeur de données Qu'on peut utiliser pour ajouter ou
modifier des lemmes, gérer les formes irrégulières,
et adapter le lemmatiseur aux variantes graphiques
qu'a subies la langue après l'âge classique. Cet éditeur, nommé Ecce
(Ecce Collatinistarum Communitatis Editor) est disponible ici, et
il est accompagné d'une documentation qu'il est important de lire
avant de l'utiliser.</p>

<p>Pour faire son travail, Collatinus s'appuie sur une
collection de fichiers qui contiennent toutes les
connaissances nécessaires. À l'initialisation du
programme, ils sont tous lus, et les données mises
en listes et placées en mémoire vive.</p>

<p>Si on remarque une erreur ou une lacune dans les
résultats, et qu'on a des connaissances suffisantes en
gestion et édition de fichiers, on peut commencer à les
modifier. Il faut bien sûr prendre des précautions,
notamment <strong>en prenant soin de faire une copie de
sauvegarde avant toute intervention</strong> : on crée un
répertoire dont on note bien le chemin, et on y copie
les fichiers qu'on a l'intention de modifier. On peut
ainsi, en cas d'échec, les rétablir dans leur état
initial.</p>

<p>Les fichiers les plus importants sont détaillés ci-dessous.</p>

<h2>Le fichier morphos.la</h2>

<p>C'est un simple fichier dans lequel sont toutes les
morphologies possibles que peuvent prendre les formes
latines. Ainsi pour désigner une morphologie, on donne
le numéro de la ligne où elle se trouve. Par exemple,
la morphologie
<em>vocatif masculin singulier participe présent actif</em> est
désignée par le nombre <em>190</em>.</p>

<h2>le fichier modeles.la</h2>

<p>C'est de loin le plus important. Y sont placés tous les
modèles de flexion.</p>

<p>Un modèle est un ensemble de lignes. Chaque modèle est séparé
du précédent par une ligne vide.</p>

<p>Une ligne commençant par un point d'exclamation est un
commentaire. Lors de sa lecture, Collatinus n'en tient
pas compte.</p>

<p>Chaque ligne est bâtie sur le schéma <strong>clé:valeur</strong>
Tout ce qui précède <em>le premier caractère <strong>deux
points</strong></em> est la clé, le reste est la valeur.
La première clé doit être le nom du modèle. L'ordre
dans lequel apparaissent les autres clés n'a pas
d'importance, mais mieux vaut rester cohérent et garder
la même disposition.</p>

<h3>Les clés</h3>

<ul>
<li>modèle:nom-du-modèle Exemple : <strong>modele:uita</strong></li>
<li>Liste des radicaux :
  R:&lt;n1>:&lt;n2>,&lt;ch>

<ul>
<li>n1 : numéro du radical</li>
<li>n2 : nombre de caractères à ôter de la forme canonique</li>
<li>ch : chaîne à ajouter à la chaîne obtenue pour avoir le radical. S'il n'y a aucune chaîne à ajouter, la valeur est 0.  exemple pour uita : <strong>R:1:1:0</strong>, ce qui signifie que pour le radical 1, on enlève un caractère à <em>uita</em>, ce qui donne <em>uit</em>, et on n'ajoute rien.</li>
</ul>
</li>
<li>désinences :
  des:&lt;intervalle>:&lt;num>:&lt;listeDes>

<ul>
<li>intervale : liste de n° de morphologies séparées
par des virgules, ou intervalle de numéros
&lt;premier>&ndash;&lt;dernier>. Les deux méthodes peuvent
voisiner dans un intervalle.</li>
<li>num : numéro du radical utilisé par ces désinences.</li>
<li>listeDes : liste des désiences. On peut ne donner qu'une fois une désinence qui se répète en fin de liste.</li>
</ul>
</li>
</ul>


<h3>Les variables</h3>

<p>Comme les mêmes séries de désinences sont souvent utilisées de nombreuses fois par
des modèles et des radicaux différents, on peut mettre ces séries en variables. Ainsi,
pour le modèle uita. Au lieu d'écrire :</p>

<pre><code>modele:uita
R:1:1,0
des:1-12:1:ă;ă;ăm;āe;āe;ā;āe;āe;ās;ārum;īs;īs
</code></pre>

<p>On définit une variable de cette manière :</p>

<pre><code>$&lt;variable&gt;:&lt;valeurs&gt;
</code></pre>

<p>Par exemple, pour définir la variable uita :</p>

<pre><code>$uita=ă;ă;ăm;āe;āe;ā;āe;āe;ās;ārum;īs;īs
</code></pre>

<p>et la définition du modèle deviendra :</p>

<pre><code>modele:uita
R:1:1,0
des:1-12:1:$uita
</code></pre>

<p>La variable $uita peut être utilisée pour le participe parfait :</p>

<pre><code>modele:amo
(radicaux, autres désinences)
des:315-326:2:$uita
</code></pre>

<h2>Le fichier lemmes.la</h2>

<p>C'est un gros fichier qui donne tous les mots latins, leur modèle,
leurs radicaux, et les indications morphologiques qui
apparaîtront dans l'analyse.</p>

<p>Chaque lemme occupe une seule ligne. Cinq champs sont séparés par
le caractère <strong>|</strong> :
1. la forme canonique du lemme ; si le dictionnaire
n'en donne pas toutes les quantités, on la réécrit
entièrement mesurée après le signe <strong>=</strong>.
2. son modèle, pris dans le fichier modeles.la ;
3. s'il n'est pas défini par modeles.la, son radical de
génitif, ou d'infectum pour les verbes ;
4. s'il n'est pas défini par modeles.la, son radical de
perfectum ;
5. ses indications morphologiques</p>

<p>Exemple :</p>

<pre><code>ablŭo=ā̆blŭo|lego|ā̆blŭ|ā̆blūt|is, ere, lui, lutum
</code></pre>

<h2>les irréguliers</h2>

<p>On place dans le fichier irregs.la les formes
irrégulières. On peut hésiter entre l'ajout d'une forme
dans ce fichier ou la définition d'un nouveau modèle.
Si plus de trois lemmes construisent une forme dite
irrégulière de la même manière, mieux vaut créer un
modèle. De même, si un lemme a plus de trois formes
irrégulières, mieux vaut créer un modèle pour ce lemme.</p>

<p>Le format est simple :</p>

<pre><code>&lt;forme&gt;:&lt;lemme&gt;:&lt;morphos&gt;
</code></pre>

<ol>
<li>la forme doit être mesurée. On lui ajoute un
astérisque si c'est une forme irrégulière exclusive,
c'est à dire si la forme régulière correspondante
n'existe pas ;</li>
<li>Le lemme, sans ses quantités ;</li>
<li>La liste entre virgule des morphologies qui
utilisent cette forme. On peut utiliser la syntaxe des
intervalles de la clé <strong>des</strong> du fichier modeles.la.</li>
</ol>


<p>Exemples :</p>

<pre><code>ălĭud*:alius:37-39
āccēstĭs:accedo:143
āmbŏbŭs*:ambo:17,18,29,30,47,48
</code></pre>

<h2>les fichiers de traduction</h2>

<p>Les fichiers de traductions sont tous nommées
lemmes.??, les deux points d'interrogation étant deux
caractères qui servent à désigner la langue cible.
(fr=français, it=italien, etc.)</p>

<p>Leur format est extrêmement simple :
   <lemme>:<traduction>
1. <strong>lemme</strong> : le lemme sans quantités ;
2. <strong>traduction</strong> : la traduction dans la langue cible.</p>

<h2>les fichiers de contraction et d'assimilation</h2>

<p>bin/data/assimilations.la et bin/data/contractions.la sont deux
fichiers qui permettent de déclarer</p>

<ul>
<li>Les assimilations : la forme <em>affert</em> n'est pas reconnue, mais
une règle d'assimilation permet de remplacer <em>-aff-</em>
par <em>-adf-</em>, et  d'analyser aussi la forme
<em>adfert</em>, qui est reconnue.</li>
<li>Les contractions : la forme <em>amassem</em> n'est pas reconnue, mais une
règle de contraction permet de remplacer <em>-assem</em> par
<em>-auissem</em>, ce qui donne <em>amauissem</em>, qui est reconnu.</li>
</ul>


<p><a href="index.html">index</a> précédent : <a href="server.html">Serveur</a> suivant : <a href="programmeurs.html">Pour les programmeurs</a></p>