File: ocrconfiguration.page

package info (click to toggle)
ocrfeeder 0.7.9-1
  • links: PTS, VCS
  • area: main
  • in suites: wheezy
  • size: 3,976 kB
  • sloc: python: 18,421; sh: 809; makefile: 139; xml: 33
file content (52 lines) | stat: -rw-r--r-- 4,201 bytes parent folder | download | duplicates (2)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
<?xml version="1.0" encoding="utf-8"?>
<page xmlns="http://projectmallard.org/1.0/" type="topic" id="ocrconfigutation" xml:lang="de">

<info>
    <link type="guide" xref="index#configuration"/>
    <link type="seealso" xref="automaticrecognition"/>
    <link type="seealso" xref="manualeditionandcorrection"/>
    <desc>Einrichten der OCR-Anwendungen zur Texterkennung</desc>
</info>

<title>OCR-Anwendungen verwalten</title>

<p><app>OCRFeeder</app> verwendet systemweit installierte OCR-Anwendungen, um Text aus Bildern auszulesen. Das bedeutet, dass jede für die Befehlszeile verfügbare OCR-Anwendung auch in <app>OCRFeeder</app> genutzt werden kann.</p>

<section>

<title>Automatische Erkennung von OCR-Anwendungen</title>

<p>Die OCR-Anwendungen (<em>Tesseract</em>, <em>GOCR</em>, <em>Ocrad</em> und <em>Cuneiform</em>) werden auf den meisten Systemen bereits automatisch erkannt und konfiguriert, wenn <app>OCRFeeder</app> zum ersten Mal gestartet wird.</p>

<p>Falls nach der Installation von <app>OCRFeeder</app> und dem Einrichten einer Anwendung eine weitere installiert wurde, dann wird diese nicht automatisch eingerichtet. Abhängig von der Anwendung öffnen Sie einfach den Dialog <gui>OCR-Anwendung</gui> und wählen Sie die gewünschte Anwendung aus, nachdem Sie <gui>Erkennen</gui> angeklickt haben.</p>

<note style="tip"><p>Bereits erkannte OCR-Anwendungen können erneut eingelesen werden. Es ist Ihnen überlassen, diese Anwendungen abzuwählen, falls sie nicht mehr verwendet werden sollen.</p></note>

</section>

<section>

<title>Manuelle Konfiguration</title>

<p>Die aktuell eingerichteten OCR-Anwendungen werden im Dialog <gui>OCR-Anwendungen</gui> angezeigt. Diesen Dialog können Sie über <guiseq><gui>Werkzeuge</gui><gui>OCR-Anwendungen</gui></guiseq> öffnen.</p>

<p>Dieser Dialog zeigt die bereits eingerichteten OCR-Anwendungen an. Weiterhin ist es hier möglich, neue Anwendungen hinzuzufügen, bereits eingerichtete zu bearbeiten oder zu löschen und die auf dem System installierten Anwendungen erneut einzulesen.</p>

<p>Beim Hinzufügen oder Bearbeiten einer OCR-Anwendung (durch Anklicken der Knöpfe <gui>Hinzufügen</gui> oder <gui>Bearbeiten</gui>) wird ein Dialog mit den folgenden Feldern angezeigt:</p>

<list>
    <item><p><gui>Name</gui>: Der Name der Anwendung. Dieser Name wird in der Benutzeroberfläche stets bezugnehmend auf diese Anwendung verwendet.</p></item>
    <item><p><gui>Bildformat</gui>: Das Bildformat, das von der Anwendung erkannt werden kann (z.B. <em>TIF</em> für <em>Tesseract</em>);</p></item>
    <item><p><gui>Fehlertext</gui>: Einige Anwendungen ersetzen nicht erkannte Zeichen durch einen vordefinierten Platzhalter. Bei <em>GOCR</em> wird beispielsweise der Unterstrich <em>_</em> verwendet.</p></item>
    <item><p><gui>Anwendungspfad</gui>: Der Systempfad zur ausführbaren Datei der OCR-Anwendung, beispielsweise <em>/usr/bin/tesseract</em>.</p></item>
    <item><p><gui>Argumente der Anwendung</gui>: Die Argumente, über die ein Bild an die OCR-Anwendung übergeben und der erkannte Text in die Standardausgabe geschrieben wird. <app>OCRFeeder</app> führt die Anwendung mit diesen Argumenten in der Befehlszeile aus und schaut nach dem erkannten Text in der Standardausgabe. Einige Anwendungen, wie <em>Ocrad</em> und <em>GOCR</em> arbeiten auf diese Weise, während andere, wie beispielsweise <em>Tesseract</em>, den erkannten Text in eine Datei schreiben.</p>
    <p>Da der Pfad zum einzulesenden Bild stets erforderlich ist, wird hier ein spezielles Argument <em>$IMAGE</em> eingefügt, welches beim Ausführen der Anwendung durch den Pfad zum Bild ersetzt wird. Falls ein Dateiname erforderlich ist, wird ein spezielles Argument <em>$FILE</em> eingefügt, welches durch den Namen der temporären Datei ersetzt wird.</p>
    <p>Im Fall von <em>Tesseract</em>, welches den erkannten Text in eine Datei schreibt, lauten die Argumente <em>$IMAGE $FILE; cat $FILE.txt; rm $FILE</em>.</p></item>

</list>

<note style="advanced"><p>Die Konfiguration der Anwendung wird in einer eigenen XML-Datei im persönlichen Ordner des Benutzers unter <em>.ocrfeeder/engines/</em> gespeichert.</p></note>

</section>

</page>