File: ocrconfiguration.page

package info (click to toggle)
ocrfeeder 0.7.9-1
  • links: PTS, VCS
  • area: main
  • in suites: wheezy
  • size: 3,976 kB
  • sloc: python: 18,421; sh: 809; makefile: 139; xml: 33
file content (52 lines) | stat: -rw-r--r-- 5,627 bytes parent folder | download | duplicates (2)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
<?xml version="1.0" encoding="utf-8"?>
<page xmlns="http://projectmallard.org/1.0/" type="topic" id="ocrconfigutation" xml:lang="uk">

<info>
    <link type="guide" xref="index#configuration"/>
    <link type="seealso" xref="automaticrecognition"/>
    <link type="seealso" xref="manualeditionandcorrection"/>
    <desc>Налаштування розпізнавального рушія для розпізнавання тексту</desc>
</info>

<title>Налаштування розпізнавального рушія</title>

<p><app>OCRFeeder</app> використовує вбудований в систему рушій OCR, щоб видобувати текст із зображення. Це означає, що будь-який рушій OCR, який можна викликати з командного рядка, може бути використаний в <app>OCRFeeder</app>.</p>

<section>

<title>Автоматичне виявлення розпізнавальних рушіїв</title>

<p>Рушії OCR (<em>Tesseract</em>, <em>GOCR</em>, <em>Ocrad</em> та <em>Cuneiform</em>) вже автоматично визначено й налаштовано в більшості систем, протягом першого запуску <app>OCRFeeder</app></p>

<p>Якщо розпізнавальний рушій встановлено після того, як <app>OCRFeeder</app> вже налаштував рушій, він не буде автоматично налаштований, але залежно від рушія, користувач може відкрити вікно <gui>Рушії OCR</gui> і вибрати його зі списку знайдених рушіїв після натискання <gui>Виявити</gui>.</p>

<note style="tip"><p>Вже налаштовані рушії OCR можна визначити знов і користувач має познімати позначки на непотрібних йому рушіїв</p></note>

</section>

<section>

<title>Підручник з налаштування</title>

<p>Налаштовані рушії OCR показуються у вікні <gui>Рушії OCR</gui>, який можна відкрити командою <guiseq><gui>Засоби</gui><gui>Рушії OCR</gui></guiseq>.</p>

<p>Крім показаних налаштованих рушіїв OCR, вікно <gui>Рушії OCR</gui> дозволяє додавати нові рушії, редагувати чи вилучати їх і відшуковувати наявні в системі.</p>

<p>Протягом додавання чи редагування рушіїв OCR (натискаючи відповідно <gui>Додати</gui> або <gui>Змінити</gui>), вікно показується з такими полями:</p>

<list>
    <item><p><gui>Назва</gui>: Назва рушія. Ця назва буде використовуватись скрізь, де в інтерфейсі користувача згадуватиметься рушій;</p></item>
    <item><p><gui>Формат зображення</gui>: формат зображення, який розпізнається рушієм (наприклад, <em>TIF</em> у випадку <em>Tesseract</em>);</p></item>
    <item><p><gui>Невдалий рядок</gui>: деякі рушії замінюють нерозпізнаний символ іншим, попередньо визначеним символом (наприклад, <em>_</em> у випадку <em>GOCR</em>).</p></item>
    <item><p><gui>Шлях до рушія</gui>: системний шлях до виконуваного файла рушія (наприклад, <em>/usr/bin/tesseract</em>).</p></item>
    <item><p><gui>Аргументи рушія</gui>: аргументи, що вказують рушію на зображення і скеровують розпізнаний текст до стандартного вихідного потоку. <app>OCRFeeder</app> запускає рушій з цими аргументами так, ніби вони введені з командного рядка, і шукає розпізнаний текст у стандартному вихідному потоці. Деякі рушії, наприклад, <em>Ocrad</em> та <em>GOCR</em>, роблять це, тоді як інші, наприклад, <em>Tesseract</em>, записують текст до файла.</p>
    <p>Оскільки шлях до зображення потрібно вказувати завжди, для нього є окремий аргумент <em>$IMAGE</em>, який замінюється шляхом до зображення протягом запуску рушія. Для випадків, коли потрібна назва файла, як було вказано вище, підтримується окремий аргумент <em>$FILE</em>, що замінюється назвою тимчасового файла.</p>
    <p>Отже, у випадку <em>Tesseract</em> (котрий записує розпізнаний текст до файла), аргументи будуть такими: <em>$IMAGE $FILE; cat $FILE.txt; rm $FILE</em>.</p></item>

</list>

<note style="advanced"><p>Налаштування рушія зберігаються в окремих файлах XML у домашній теці користувача <em>.ocrfeeder/engines/</em>.</p></note>

</section>

</page>