File: ocrconfiguration.page

package info (click to toggle)
ocrfeeder 0.8.5-3
  • links: PTS, VCS
  • area: main
  • in suites: forky, sid
  • size: 5,036 kB
  • sloc: python: 6,457; sh: 875; makefile: 116; xml: 65
file content (58 lines) | stat: -rw-r--r-- 6,349 bytes parent folder | download | duplicates (2)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
<?xml version="1.0" encoding="utf-8"?>
<page xmlns="http://projectmallard.org/1.0/" type="topic" id="ocrconfiguration" xml:lang="ru">

<info>
    <link type="guide" xref="index#configuration"/>
    <link type="seealso" xref="automaticrecognition"/>
    <link type="seealso" xref="manualeditionandcorrection"/>
    <desc>Настройка движков OCR, используемых для распознавания текста</desc>

    <mal:credit xmlns:mal="http://projectmallard.org/1.0/" type="translator copyright">
      <mal:name>Алексей Кабанов</mal:name>
      <mal:email>ak099@mail.ru</mal:email>
      <mal:years>2012</mal:years>
    </mal:credit>
  </info>

<title>Настройка движков OCR</title>

<p><app>OCRFeeder</app> использует для распознавания текста установленные в системе движки оптического распознавания символов. Это означает, что любой движок OCR, который можно использовать из командной строки, может также быть использован в <app>OCRFeeder</app>.</p>

<section id="automatic">

<title>Автоматическое обнаружение движков OCR</title>

<p>Движки оптического распознавания (<em>Tesseract</em>, <em>GOCR</em>, <em>Ocrad</em> и <em>Cuneiform</em>) автоматически распознаются и настраиваются в большинстве систем при первом запуске <app>OCRFeeder</app>.</p>

<p>Если движок OCR установлен уже после первоначальной настройки движков в <app>OCRFeeder</app>, он не будет обнаружен автоматически, но пользователь может открыть диалоговое окно <gui>Движки OCR</gui>, нажать кнопку <gui>Обнаружить</gui> и выбрать его из списка обнаруженных движков.</p>

<note style="tip"><p>Уже настроенные движки OCR могут быть обнаружены вновь, и если пользователь не хочет добавлять их ещё раз, он может снять с них пометки в списке.</p></note>

</section>

<section id="manual">

<title>Настройка вручную</title>

<p>Текущие настроенные движки оптического распознавания отображаются в диалоговом окне <gui>Движки OCR</gui>, которое можно открыть командой меню <guiseq><gui>Инструменты</gui><gui>Движки OCR</gui></guiseq>.</p>

<p>Помимо отображения настроенных движков оптического распознавания, диалоговое окно <gui>Движки OCR</gui> позволяет добавлять новые движки, изменять или удалять существующие и обнаруживать движки, установленные в системе.</p>

<p>При добавлении или изменении движка OCR (нажатием кнопок <gui>Добавить</gui> или <gui>Изменить</gui>, соответственно), открывается диалоговое окно со следующими полями:</p>

<list>
    <item><p><gui>Название</gui>: название движка, используемое в интерфейсе;</p></item>
    <item><p><gui>Формат изображения</gui>: формат изображений, который движок распознаёт (например, <em>TIF</em> для <em>Tesseract</em>);</p></item>
    <item><p><gui>Строка ошибки</gui>: некоторые движки заменяют нераспознанные символы другими, заданными заранее символами (например, <em>_</em> в случае <em>GOCR</em>).</p></item>
    <item><p><gui>Путь к движку</gui>: путь к исполняемому файлу движка (например, <em>/usr/bin/tesseract</em>).</p></item>
    <item><p><gui>Аргументы движка</gui>: аргументы, передаваемые движку для загрузки изображения и перенаправления распознанного текста в стандартный поток вывода. <app>OCRFeeder</app> запускает движок с этими аргументами, как если бы он был запущен из командной строки, и ищет распознанный текста в стандартном потоке вывода. Некоторые движки сами направляют его туда (например, <em>Ocrad</em> и <em>GOCR</em>), в то время как другие (например, <em>Tesseract</em>) записывают текст в файл.</p>
    <p>Для передачи движку пути к изображению используется специальный аргумент <em>$IMAGE</em>, который при запуске движка заменяется на путь к распознаваемому изображению. Если движку необходимо указать имя выходного файла (как в описанном выше случае), существует специальный аргумент <em>$FILE</em>, который заменяется на имя временного файла.</p>
    <p>Таким образом, для <em>Tesseract</em> (который записывает распознанный текст в файл), аргументы могут быть следующими: <em>$IMAGE $FILE; cat $FILE.txt; rm $FILE</em>.</p></item>

</list>

<note style="advanced"><p>Настройка каждого движка хранится в отдельном XML-файле в домашней папке пользователя, в подпапке <em>.config/ocrfeeder/engines/</em>.</p></note>

</section>

</page>