1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176
|
.\"
.\" Doc Text to HTML file converter for Palm Pilots
.\" html2pdbtxt.1
.\"
.\" Copyright (C) 1998 Paul J. Lucas
.\"
.\" This program is free software; you can redistribute it and/or modify
.\" it under the terms of the GNU General Public License as published by
.\" the Free Software Foundation; either version 2 of the License, or
.\" (at your option) any later version.
.\"
.\" This program is distributed in the hope that it will be useful,
.\" but WITHOUT ANY WARRANTY; without even the implied warranty of
.\" MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
.\" GNU General Public License for more details.
.\"
.\" You should have received a copy of the GNU General Public License
.\" along with this program; if not, write to the Free Software
.\" Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
.\"
.\" ---------------------------------------------------------------------------
.\" define code-start macro
.de cS
.sp
.nf
.RS 5
.ft CW
.ta .5i 1i 1.5i 2i 2.5i 3i 3.5i 4i 4.5i 5i 5.5i
..
.\" define code-end macro
.de cE
.ft 1
.RE
.fi
.sp
..
.\" ---------------------------------------------------------------------------
.tr ~
.TH "\f3html2pdbtxt\fP" "1" "21. Januar 2005" "html2pdbtxt" ""
.SH "NAME"
html2pdbtxt \- HTML zu Doc\-Text Umwandler fr Palm Pilots
.SH "BERSICHT"
.B html2pdbtxt
[
.BI \-b Zeichen
]
[
.BI \-t Titel
]
[
.BI \-u URL
]
.I Datei.htm
[
.I Datei.txt
]
.br
.B html2pdbtxt \-v
.SH "BESCHREIBUNG"
.B html2pdbtxt
wandelt HTML\- in Textdateien um, die fr eine weitere Umwandlung in eine
.BR Doc (4)
\-Datei mittels
.BR txt2pdbdoc (1)
geeignet sind.
Wenn kein Dateiname fr die Textdatei angegeben wird, erfolgt die Ausgabe
des Textes auf die Standardausgabe.
.SS HTML Tags
Folgende HTML\-Tags (und die entsprechenden End\-Tags) werden erkannt:
\f(CWADDRESS\fP,
\f(CWA~NAME\fP,
\f(CWBLOCKQUOTE\fP,
\f(CWBR\fP,
\f(CWCENTER\fP,
\f(CWDIV\fP,
\f(CWDL\fP,
\f(CWDT\fP,
\f(CWH1\fP, \f(CWH2\fP, \f(CWH3\fP, \f(CWH4\fP, \f(CWH5\fP, \f(CWH6\fP,
\f(CWOL\fP,
\f(CWOPTION\fP,
\f(CWPRE\fP,
\f(CWP\fP,
\f(CWSELECT\fP,
\f(CWSCRIPT\fP,
\f(CWSTYLE\fP,
\f(CWTABLE\fP,
\f(CWTITLE\fP,
\f(CWUL\fP.
Es wird versucht, die Attribute so gut wie mglich in die
Vorgaben des
.BR Doc (4)
\-Formats umzusetzen, das im wesentlichen Klartext ist. Der Text des
\f(CWALT\fP\-Attributs (meist in \g(CWIMG\fP\-Tags)
wird zwischen Klammern in den Text eingebettet.
\f(CW[\fPso z. B.\f(CW]\fP.
Alle anderen HTML\-Tags werden entfernt.
.SS Zeichen
Umschreibungen fr HTML\-Zeichen und numerische Zeichen (dezimal und
hexadezimal) werden in ihren Wert im Zeichensatz ISO 8859\-1 (Latin 1)
umgewandelt, damit sie korrekt im Pilot erscheinen.
Zum Beispiel: aus ``résumé'' wird ``resume''
mit einem betonten 'e'.
.SS Dokumenttitel
Wenn nicht schon mit der Option
.B \-t
angegeben, wird die HTML\-Datei nach den Tags \f(CW<TITLE>\fP und
\f(CW</TITLE>\fP durchsucht
und, wenn gefunden, wird der Titel in die erste Zeile des erzeugten Textes gesetzt.
.SS Lesezeichen
Lesezeichen werden in den erzeugten Text immer dort eingesetzt, wo ein
\f(CW<A~NAME="...">\fP Tag in der HTML\-Datei gefunden wurde.
.SH "OPTIONEN"
.TP 10
.BI \-b Zeichen
Angabe der Zeichenfolge, die als Lesezeichen\-Kennung verwendet wird.
Standard ist \f(CW(*)\fP.
(Siehe BESONDERHEITEN.)
.TP
.BI \-t Titel
Angabe des Dokumenttitels, der in die erste Zeile des erzeugten Textes
eingesetzt wird und Titel, die in der HTML\-Datei zwischen
\f(CW<TITLE>\fP ... \f(CW</TITLE>\fP Tags gefunden wurden,
berschreibt.
.TP
.BI \-u URL
Angabe der URL von der die HTML\-Datei angeblich stammt; sie wird in die
Zeile nach dem Titel des erzeugten Textes eingesetzt.
.TP
.B \-v
Schreibt die Versionsnummer von
.B html2pdbtxt
auf die Standardausgabe und beendet sich.
.SH "BEISPIEL"
Umwandlung einer HTML\-Datei in Doc:
.cS
html2pdbtxt -u http://www.wonderland.org/ alice.html alice.txt
txt2pdbdoc "`head -1 alice.txt`" alice.txt alice.pdb
.cE
.SH "BESONDERHEITEN"
.TP 4
1.
Einige Doc\-Leseprogramme haben eine ``Funktion'',
beim Suchen nach der Lesezeichenkennung diese
Zeichenfolge
.B berall
im Text zu erkennen, nicht nur am Zeilenanfang.
.TP
2.
Bei einigen Doc\-Leseprogrammen darf die Lesezeichenkennung nicht das Zeichen
\f(CW>\fP enthalten, weil es als Endezeichen der Kennung verwendet wird,
z. B. \f(CW<\->>\fP wird lediglich als Folge \f(CW\-\fP erkannt.
.TP
3.
Nummerierte Listen (mit dem Tag \f(CWOL\fP) werden als unnummerierte Listen
umgesetzt (wie mit dem Tag \f(CWUL\fP), weil es so kompliziert wre, dass es
richtig ausgewertet werden msste, statt nur eine einfache Ersetzung
auszufhren.
.SH "SIEHE AUCH"
pdbtxt2html(1), txt2pdbdoc(1), doc(4), pdb(4)
.PP
International Standards Organization.
``ISO 8859\-1: Information Processing
\-\- 8\-bit single\-byte coded graphic character sets
\-\- Part 1: Latin alphabet No. 1.''
1987.
.PP
World Wide Web Consortium.
``Character entity references in HTML 4.0.''
.I HTML 4.0 Specification,
http://www.w3.org/
.SH "AUTOR"
Paul J. Lucas
.RI < pauljlucas@mac.com >
.br
Deutsche bersetzung: Erik Schanze
.RI < schanzi_@gmx.de >
|