1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111
|
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE book PUBLIC "-//OASIS//DTD DocBook XML V4.5//EN" "../../../docbook-xml-4.5/docbookx.dtd">
<chapter id="chapter.plain.text">
<title>Práce s prostým textem<indexterm class="singular">
<primary>Zdrojové soubory</primary> <secondary>Prosté textové soubory</secondary>
</indexterm></title>
<section id="default.encoding">
<title>Výchozí kódování<indexterm class="singular">
<primary>Kódování znaků</primary> <secondary>Prosté textové soubory</secondary>
</indexterm><indexterm class="singular">
<primary>Zdrojové soubory</primary> <secondary>Kódování</secondary>
</indexterm></title>
<para>Prosté textové soubory - ve většině případů s koncovkou txt – obsahují výhradně textové informace a nabízí tak nejasně definovaný způsob jak počítač informovat o tom, jaký jazyk obsahují. Maximum, co může OmegaT v takovém případě udělat je, že bude předpokládat, že text je napsán ve stejném jazyce, jaký používá sám počítač. Toto pak není žádný problém pro soubory kódované v Unicode užívající 16-ti bitovou sadu kódování znaků. Pokud je text kódován 8 bity, pak se můžete setkat s následující nepříjemnou situací: místo zobrazení textu psaného japonskými znaky ... </para>
<mediaobject>
<imageobject role="html">
<imagedata fileref="images/OmT_Japanese.png"/>
</imageobject>
<imageobject role="fo">
<imagedata fileref="images/OmT_Japanese.png" width="60%"/>
</imageobject>
</mediaobject>
<para>... systém zobrazí např. něco podobného:</para>
<mediaobject>
<imageobject role="html">
<imagedata fileref="images/OmT_Cyrillic.png"/>
</imageobject>
<imageobject role="fo">
<imagedata fileref="images/OmT_Cyrillic.png" width="60%"/>
</imageobject>
</mediaobject>
<para>Počítač, na kterém je spuštěna OmegaT, má výchozí jazyk ruštinu, a proto zobrazuje znaky v azbuce, nikoliv kanji.</para>
</section>
<section id="OmegaT.solution">
<title>Řešení pomocí <application>OmegaT</application> </title>
<para><application>OmegaT</application> má v podstatě k dispozici tři způsoby jak na věc. Všechny zahrnují použití filtrů souborů z nabídky <emphasis role="bold">Možnosti</emphasis>.</para>
<variablelist>
<varlistentry>
<term>Změňte kódování svých souborů na Unicode.</term>
<listitem>
<para>Otevřete zdrojový soubor v textovém editoru, který správně interpretuje použité kódování a uložte soubor s kódováním <emphasis role="bold">„UTF-8“</emphasis>. Změňte koncovku souboru z <literal>.txt</literal> na <literal>.utf8.</literal> <application>OmegaT</application> bude soubor automaticky interpretovat jako soubor v kódování UTF-8. Toto je nejběžnější alternativa, která vám nakonec ušetří spoustu problémů. </para>
</listitem>
</varlistentry>
</variablelist>
<variablelist>
<varlistentry>
<term>Specifikace kódování v prostých textových souborech.</term>
<listitem>
<para>(tj. soubory s koncovkou <filename>.txt </filename>): v části <emphasis role="bold">Textové soubory</emphasis> dialogového okna Filtry souborů, změňte <emphasis role="bold">Kódování zdrojového souboru</emphasis> z <auto> na kódování odpovídající vašemu zdrojovému souboru <filename>.txt</filename>, např. na .jp dle nahoře uvedeného příkladu.</para>
</listitem>
</varlistentry>
</variablelist>
<variablelist>
<varlistentry>
<term>Změňte koncovky vašich prostých textových souborů.</term>
<listitem>
<para>Například z <filename>.txt</filename> na <filename>.jp</filename> pro prosté textové soubory v japonštině: v části <emphasis role="bold">Textové soubory</emphasis> okna Filtry souborů, přidejte nový <emphasis role="bold">Vzor pro názvy zdrojových souborů</emphasis> (např. <filename>*.jp</filename> v tomto případě) a vyberte vhodné parametry pro kódování zdroje a cíle.</para>
</listitem>
</varlistentry>
</variablelist>
<para>Ve výchozím nastavení má <application>OmegaT</application> k dispozici následující krátký seznam, aby tak bylo jednodušší zpracovávat některé prosté textové soubory:</para>
<itemizedlist>
<listitem>
<para>Soubory s koncovkou <literal>.txt</literal> jsou v <application>OmegaT</application> automaticky (<auto>) interpretovány jako kódované v předvoleném kódování počítače.</para>
</listitem>
</itemizedlist>
<itemizedlist>
<listitem>
<para>Soubory s koncovkou <literal>.txt1</literal> jsou soubory v ISO-8859-1, kryjící většinu jazyků <emphasis role="bold">Západní Evropy</emphasis>.<indexterm class="singular">
<primary>Kódování znaků</primary> <secondary>Western (západní)</secondary>
</indexterm></para>
</listitem>
</itemizedlist>
<itemizedlist>
<listitem>
<para>Soubory s koncovkou <literal>.txt2</literal> jsou soubory v ISO-8859-2, což kryje většinu jazyků <emphasis role="bold">Střední a Východní Evropy</emphasis>).<indexterm class="singular">
<primary>Kódování znaků</primary> <secondary>Central and Eastern European (Centrální a Východní Evropa)</secondary>
</indexterm></para>
</listitem>
</itemizedlist>
<itemizedlist>
<listitem>
<para>Soubory s koncovkou <literal>.utf8</literal> jsou v <application>OmegaT</application> interpretovány jako v kódování UTF-8 (kódování, které pokrývá téměř všechny jazyky světa).<indexterm class="singular">
<primary>Kódování znaků</primary> <secondary>Unicode</secondary>
</indexterm></para>
</listitem>
</itemizedlist>
<para>Můžete si to ověřit sami tak, že označíte položku <emphasis role="bold">Filtry souborů</emphasis> v nabídce <emphasis role="bold">Možnosti</emphasis>. Například když máte textový soubor v češtině (velmi pravděpodobně napsaný v kódování <emphasis role="bold">ISO-8859-2</emphasis>), pak jednoduše potřebujete jen změnit koncovku <literal>.txt</literal> na <literal>.txt2</literal> a <application>OmegaT</application> bude interpretovat obsah souboru správně. A zajisté, když si chcete být zcela jistí, převeďte tyto soubory do kódování Unicode, t.j. do souborového formátu <literal>.utf8</literal>.</para>
</section>
</chapter>
|