File: ocrconfiguration.page

package info (click to toggle)
ocrfeeder 0.8.5-3
  • links: PTS, VCS
  • area: main
  • in suites: forky, sid
  • size: 5,036 kB
  • sloc: python: 6,457; sh: 875; makefile: 116; xml: 65
file content (58 lines) | stat: -rw-r--r-- 4,244 bytes parent folder | download | duplicates (3)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
<?xml version="1.0" encoding="utf-8"?>
<page xmlns="http://projectmallard.org/1.0/" type="topic" id="ocrconfiguration" xml:lang="es">

<info>
    <link type="guide" xref="index#configuration"/>
    <link type="seealso" xref="automaticrecognition"/>
    <link type="seealso" xref="manualeditionandcorrection"/>
    <desc>Configurar los motores OCR para reconocer el texto</desc>

    <mal:credit xmlns:mal="http://projectmallard.org/1.0/" type="translator copyright">
      <mal:name>Daniel Mustieles</mal:name>
      <mal:email>daniel.mustieles@gmail.com</mal:email>
      <mal:years>2011 - 2018</mal:years>
    </mal:credit>
  </info>

<title>Configuración de los motores OCR</title>

<p><app>OCRFeeder</app> utiliza todos los motores OCR del sistema para extraer el texto de las imágenes. Esto significa que cualquier motor OCR usado desde la línea de comandos debería poder usarse en <app>OCRFeeder</app>.</p>

<section id="automatic">

<title>Detección automática de motores OCR</title>

<p>Los motores OCR (<em>Tesseract</em>, <em>GOCR</em>, <em>Ocrad</em> y <em>Cuneiform</em>) se detectan y configuran automáticamente en la mayoría de los sistemas la primera vez que se ejecuta <app>OCRFeeder</app>.</p>

<p>Si se instala un motor OCR después de de que <app>OCRFeeder</app> haya configurado un motor, no se configurará automáticamente pero, dependiendo del motor, los usuarios ir al diálogo <gui>Motores OCR</gui> y seleccionarlo en la lista de motores detectados después de pulsar en <gui>Detectar</gui>.</p>

<note style="tip"><p>Los motores OCR ya configurados se deben detectar otra vez y es labor del usuario desmarcar estos motores. Si no se hace se añadirán otra vez.</p></note>

</section>

<section id="manual">

<title>Configuración manual</title>

<p>Los motores OCR configurados actualmente se muestran en el diálogo <gui>Motores OCR</gui>, que se puede abrir desde <guiseq><gui>Herramientas</gui><gui>Motores OCR</gui></guiseq>.</p>

<p>Además de ver los motores OCR configurados, el diálogo <gui>Motores OCR</gui> le permite añadir motores nuevos, editar o eliminar los motores actuales y detectar los motores instalados en el sistema.</p>

<p>Al añadir o editar un motor OCR (pulsando los botones <gui>Añadir</gui> o <gui>Editar</gui>, respectivamente), se muestra un diálogo con los siguientes campos:</p>

<list>
    <item><p><gui>Nombre</gui>: el nombre del motor. Este nombre se usará en toda la IU cuando se refiera al motor;</p></item>
    <item><p><gui>Formato de imagen</gui>: el formato de imagen que el motor reconoce (por ejemplo, <em>TIF</em> en el caso de <em>Tesseract</em>);</p></item>
    <item><p><gui>Texto de fallo</gui>: algunos motores reemplazan los caracteres no reconocidos por otros caracteres predefinidos (por ejemplo, <em>_</em> en el caso de <em>GOCR</em>).</p></item>
    <item><p><gui>Ruta al motor</gui>: la ruta del sistema al ejecutable del motor (por ejemplo, <em>/usr/bin/tesseract</em>).</p></item>
    <item><p><gui>Argumentos del motor</gui>: los argumentos se toman de una imagen para el motor y que hacen que el texto reconocido se muestre por la salida estándar. <app>OCRFeeder</app> ejecuta el motor con estos argumentos como si estuviera en la línea de comandos y busca el texto reconocido en la salida estándar. Algunos motores como <em>Ocrad</em> y <em>GOCR</em>ya hacen esto, mientras que <em>Tesseract</em> escribe el texto en un archivo.</p>
    <p>Ya que siempre se añade la ruta de la imagen que leer, se proporciona un argumento <em>$IMAGE</em> especial para esto, que se reemplazará por la ruta de la imagen cuando se ejecuta el motor. En los casos en que se necesita un nombre de archivo, como el mencionado anteriormente, se proporciona un argumento <em>$FILE</em> especial que se reemplazará por un nombre de archivo temporal.</p>
    <p>Por lo que, en el caso de <em>Tesseract</em> (que escribe el texto reconocido en un archivo), los argumentos deberían ser <em>$IMAGE $FILE; cat $FILE.txt; rm $FILE</em>.</p></item>

</list>

<note style="advanced"><p>La configuración de los motores se almacena en su propio archivo XML en la carpeta personal del usuario, en <em>.config/ocrfeeder/engines/</em>.</p></note>

</section>

</page>