File: ocrconfiguration.page

package info (click to toggle)
ocrfeeder 0.8.5-2
  • links: PTS, VCS
  • area: main
  • in suites: forky, sid
  • size: 4,776 kB
  • sloc: python: 6,488; sh: 875; makefile: 116; xml: 65
file content (53 lines) | stat: -rw-r--r-- 4,148 bytes parent folder | download | duplicates (3)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
<?xml version="1.0" encoding="utf-8"?>
<page xmlns="http://projectmallard.org/1.0/" type="topic" id="ocrconfiguration" xml:lang="fr">

<info>
    <link type="guide" xref="index#configuration"/>
    <link type="seealso" xref="automaticrecognition"/>
    <link type="seealso" xref="manualeditionandcorrection"/>
    <desc>Configurer le moteur ROC pour reconnaître le texte</desc>
</info>

<title>Configuration du moteur ROC</title>

<p><app>OCRFeeder</app> utilise les moteurs ROC du système pour extraire le texte des images. Ce qui veut dire que tout moteur ROC utilisable en ligne de commande peut aussi être utilisé avec <app>OCRFeeder</app>.</p>

<section id="automatic">

<title>Détection automatique des moteurs ROC</title>

<p>Avec la plupart des systèmes, les moteurs ROC (<em>Tesseract</em>, <em>GOCR</em>, <em>Ocrad</em> et <em>Cuneiform</em>) sont déjà automatiquement détectés et configurés à la première exécution de <app>OCRFeeder</app>.</p>

<p>Si vous installez un moteur ROC après que <app>OCRFeeder</app> ait déjà configuré un moteur, il ne sera pas automatiquement configuré. Mais, en fonction du moteur, vous pouvez facilement vous rendre dans la boîte de dialogue <gui>Moteurs ROC</gui> (voir menu <gui>Outils</gui>) et le choisir dans la liste des moteurs détectés après avoir appuyé sur le bouton <gui>Détecter</gui>.</p>

<note style="tip"><p>Il se peut que des moteurs ROC déjà configurés soient détectés à nouveau et il vous appartient alors de les décocher si vous ne souhaitez pas qu'ils soient ajoutés.</p></note>

</section>

<section id="manual">

<title>Configuration manuelle</title>

<p>Ouvrez la boîte de dialogue <gui>Moteurs ROC</gui> dans le menu <guiseq><gui>Outils</gui><gui>Moteurs ROC</gui></guiseq> pour afficher les moteurs ROC actuellement configurés.</p>

<p>À droite de la liste des moteurs ROC déjà configurés, des boutons vous permettent d'en ajouter de nouveaux, de modifier ou supprimer les moteurs actuels et de détecter ceux installés sur le système.</p>

<p>Si vous ajoutez ou modifiez un moteur ROC (en cliquant sur les boutons <gui>Ajouter</gui> ou <gui>Modifier</gui>), une boîte de dialogue affiche les champs suivants :</p>

<list>
    <item><p><gui>Nom</gui> : le nom du moteur. Ce nom est utilisé partout dans l'interface utilisateur lorsque vous vous référez à ce moteur.</p></item>
    <item><p><gui>Format d'image</gui> : le format d'image que le moteur reconnaît (par exemple <em>TIF</em> dans le cas du moteur <em>Tesseract</em>).</p></item>
    <item><p><gui>Message d'erreur</gui> : certains moteurs remplacent les caractères inconnus par un autre pré-défini (par exemple, <em>_</em> dans le cas du moteur <em>GOCR</em>).</p></item>
    <item><p><gui>Chemin du moteur</gui> : le chemin dans le système vers l'exécutable du moteur (par exemple <em>/usr/bin/tesseract</em>).</p></item>
    <item><p><gui>Paramètres du moteur</gui> : les paramètres qui permettent de fournir une image vers le moteur et de faire que le texte reconnu sorte vers la sortie standard. <app>OCRFeeder</app> lance le moteur avec ces paramètres comme si c'était en ligne de commande et recherche le texte reconnu dans la sortie standard. Certains moteurs le font déjà, comme <em>Ocrad</em> et <em>GOCR</em> mais d'autres, comme <em>Tesseract</em>, écrivent le texte dans un fichier.</p>
    <p>Puisque le chemin vers l'image à lire est toujours nécessaire, un paramètre spécial <em>$IMAGE</em> est prévu à cet effet et sera remplacé par le chemin de l'image lorsque que le moteur est lancé. Dans le cas où un nom de fichier est nécessaire, comme celui mentionné auparavant, un paramètre spécial <em>$FILE</em> est prévu et remplacé par un nom de fichier temporaire.</p>
    <p>Dans le cas de <em>Tesseract</em> (qui écrit le texte reconnu dans un fichier), les paramètres sont <em>$IMAGE $FILE; cat $FILE.txt; rm $FILE</em>.</p></item>

</list>

<note style="advanced"><p>The engines' configuration is stored in their own XML file
in the user's home under <em>.config/ocrfeeder/engines/</em>.</p></note>

</section>

</page>