1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527
|
.\"
.\" Japanese Version Copyright (c) 2003-2005 Yuichi SATO
.\" all rights reserved.
.\" Translated Wed Jul 23 03:20:31 JST 2003
.\" by Yuichi SATO <ysato444@yahoo.co.jp>
.\" Updated & Modified Sat Jan 31 20:12:43 JST 2004 by Yuichi SATO
.\" Updated & Modified Sat Feb 19 13:46:24 JST 2005 by Yuichi SATO
.\"
.TH FILE 1 "Copyright but distributable"
.\" $Id: file.man,v 1.55 2005/02/09 19:07:30 christos Exp $
.SH 名前
file
\- ファイルタイプを判定する
.SH 書式
.B file
[
.B \-bcikLnNprsvz
]
[
.B \-f
.I namefile
]
[
.B \-F
.I separator
]
[
.B \-m
.I magicfiles
]
.I file
\&...
.br
.B file
.B -C
[
.B \-m
magicfile ]
.SH 説明
この man ページは
.B file
コマンド version 4.12 について記述している。
.PP
.B file
は各引き数をテストして分類する。
ファイルシステムテスト、マジックナンバーテスト、言語テストの
順序で 3 つのテストを行う。
そのうちの\fI最初に\fR成功したテストで、ファイルタイプを表示する。
.PP
表示されるタイプには通常以下のうち 1 つの単語が含まれる。
.B text
(このファイルには表示可能文字といくつかの一般的な制御文字のみが含まれ、
.SM ASCII
端末で読んでも多分安全である)、
.B executable
(このファイルにはプログラムをコンパイルした結果が含まれ、
\s-1UNIX\s0 カーネルなどにより実行可能な形式である)、
.B data
その他のもの (data は通常「バイナリ」または表示不能なファイルである)。
ただしバイナリデータを含んでいる良く知られた形式のフォーマット
(core ファイル、tar アーカイブなど) は例外である。
.I /usr/share/file/magic
ファイルや file プログラム自身を変更する場合も、
\fBこれらのキーワードは変更しないこと\fR。
人々は、ディレクトリ内の読み取り可能なファイルに対しては、
全て ``text'' が表示されると思っている。
Berkeley がかつてやったように、
``shell commands text'' を ``shell script'' に変更したりしてはいけない。
ファイル
.I /usr/share/file/magic
は、このプログラムのソースディストリビューションのサブディレクトリ
.I Magdir
にある数多くの小さなファイルから機械的に作られている点に注意すること。
.PP
ファイルシステムのテストは、
.BR stat (2)
システムコールの結果の検討に基づいて行われる。
このプログラムは、ファイルが空であるかや、
特殊ファイルであるかをチェックする。
実行中のシステムに特有の既存のファイルタイプ
(ソケット・シンボリックリンク・名前付きパイプ (FIFO)
(ただしシステムで実装されている場合)) は、
システムのヘッダファイル
.I <sys/stat.h>
に定義されていれば、すぐに分かる。
.PP
マジックナンバーテストは、
特定の決まった形式のデータを含むファイルをチェックするのに使われる。
もっとも簡単な例は、バイナリ実行可能ファイル (コンパイルされたプログラム)
.I a.out
である。
この形式は標準インクルードディレクトリの
.I a.out.h
で定義されている
.RI ( exec.h
の場合もある)。
これらのファイルにはファイルの先頭付近の特定位置に
「マジックナンバー」が格納されている。
これにより \s-1UNIX\s0 オペレーティングシステムは、
ファイルがバイナリ実行可能であることが分かり、
そのうちのどのファイルタイプであるかも分かる。
「マジックナンバー」の考え方は、データファイルに対する拡張にも応用されている。
ファイルの先頭から近い場所に一定の識別子を持つファイルは、
通常はこの方法で記述できる。
これらのファイルについての情報識別子は、コンパイルされたマジックファイル
.I /usr/share/file/magic.mgc
から読み込まれる。
このコンパイルされたファイルがない場合は、
.I /usr/share/file/magic
から読み込まれる。
更に
.B file
は
.I $HOME/.magic.mgc
または
.I $HOME/.magic
からマジックファイルのエントリを探す。
.PP
ファイルがマジックファイルのどのエントリともマッチしなかった場合、
テキストファイルであるかを調べる。
文字集合内の表示可能なテキストを構成する
バイト列の範囲の違いを調べることにより、
ASCII, ISO-8859-x, (Macintosh や IBM PC システムで使用されている)
ISO に準拠しない 8 ビット拡張 ASCII 文字集合、
UTF-8 エンコードされたユニコード、UTF-16 エンコードされたユニコード、
EBCDIC 文字集合を識別する。
ファイルがこれらのテストをパスすると、文字集合名が表示される。
ASCII, ISO-8859-x, UTF-8, 拡張 ASCII のファイルは、
これはほぼ全ての端末で読むことができるので、
``text'' として識別される。
UTF-16 と EBCDIC のファイルは、
たとえテキストを含んでいたとしても読む前に変換が必要なので、
単なる ``character data'' とされる。
さらに
.B file
はテキスト型ファイルの他の特徴も決定しようとする。
ファイルの行が Unix で標準的な LF ではなく、
CR, CRLF, NEL で終了している場合は、その旨を表示する。
ファイルに組み込み (embedded) エスケープシーケンスや
重ね打ち (overstriking) が含まれている場合も、その旨を表示する。
.PP
.B file
はテキスト型ファイルで使われている文字集合を決定した後は、
ファイルが書かれている言語を決定しようとする。
言語テストではファイルの最初の数ブロックのどこかに現れる特定の文字列
.RI ( names.h
を参照) を探す。
例えばキーワード
.B .br
があれば、そのファイルは多くの場合
.BR troff (1)
の入力ファイルであることを示しており、
キーワード
.B struct
は C 言語プログラムであることを示している。
これらのテストは前のテストに比べると信頼性が低いので、
最後に実行される。
言語テストのルーチンは他のファイルタイプ (例えば
.BR tar (1)
アーカイブ) に関するテストも行う。
.PP
上に挙げた文字集合のどれにも当てはまらないファイルは、
単に ``data'' と表示される。
.SH オプション
.TP 8
.B "\-b, \-\-brief"
出力行の最初にファイル名を表示しない (簡易モード)。
.TP 8
.B "\-c, \-\-checking\-printout"
マジックファイルの解析形式を表示してチェックする。
通常は
.B \-m
オプションと一緒に用いて、
新しいマジックファイルをインストールする前のデバッグに使う。
.TP 8
.B "\-C, \-\-compile"
マジックファイルを事前に解析した内容を含む出力ファイル
magic.mgc を書き出す。
.TP 8
.BI "\-f, \-\-files\-from" " namefile"
他の引き数リストより先に、検査するファイルの名前を
.I namefile
ファイルから読み込む
(1 行に 1 つのファイル名)。
.I namefile
または少なくとも 1 つのファイル名引き数がなければいけない。
標準入力をテストする場合は、ファイル名引き数として ``\-'' を使うこと。
.TP 8
.BI "\-F, \-\-separator" " separator"
指定した文字列をファイル名とファイルをテストした結果の区切り文字とする。
デフォルトは ``:'' である。
.TP 8
.B "\-i, \-\-mime"
file コマンドの出力を人間が読みやすい昔ながらのものではなく、
mime タイプ文字列にする。
したがって ``ASCII text'' ではなく、
``text/plain; charset=us-ascii'' のように出力される。
このオプションを動作させるため、
file コマンドが認識するファイルの取り扱い方法
(多くのテキストファイルタイプやディレクトリ) を変更し、
別の ``magic'' ファイルを使うようにした。
(下記の「ファイル」のセクションを参照)。
.TP 8
.B "\-k, \-\-keep\-going"
最初にマッチしたもので停止せず、次のマッチングに進む。
.TP 8
.B "\-L, \-\-dereference"
(システムがシンボリックリンクをサポートしている場合は)
.BR ls (1)
の同じ名前のオプションと同様に、シンボリックリンクを辿るようにさせる。
.TP 8
.BI "\-m, \-\-magic\-file" " list"
マジックナンバーが書かれた別のファイルのリストを指定する。
1 つのファイルでも、コンマで区切られたファイルのリストでもよい。
コンパイル済みのマジックファイルが一緒に指定された場合は、
代りにそれを使う。
.TP 8
.B "\-n, \-\-no\-buffer"
1 つのファイルをチェックする毎に、標準出力をフラッシュする。
これは複数のファイルをチェックするときにのみ役立つ。
このオプションは、ファイルタイプをパイプから出力する
プログラムで使われることを意図している。
\-i または \-\-mime オプションと一緒に指定すると、
このプログラムは各ファイル名の後に ".mime" を追加する。
.TP 8
.B "\-N, \-\-no\-pad"
出力を整列するためのファイル名への空白の追加を行わない。
.TP 8
.B "\-p, \-\-preserve\-date"
.BR utime (2)
または
.BR utimes(2)
をサポートするシステムでは、
.BR file (1)
が解析したファイルを読み込まれなかったかのようにするため、
アクセス時刻を保存しようとする。
.TP 8
.B "\-r, \-\-raw"
印字不能文字を \eooo に変換しない。
通常、
.B file
は印字不能文字を 8 進数表現に変換する。
.TP 8
.B "\-s, \-\-special\-files"
通常
.B file
は、引き数で指定されたファイルのうち
.BR stat (2)
で通常のファイル (ordinary file) とされたファイルのみを読み込んで、
タイプの決定を行う。
特殊ファイルを読み込むと異常な結果を引き起こすかも知れないため、
この動作により問題を防止している。
.BR \-s
オプションを指定すると、
.B file
は引き数で指定されたブロックスペシャルファイルや
キャラクタスペシャルファイルも読み込む。
ブロックスペシャルファイルである
raw ディスクパーティションのデータの
ファイルシステムタイプを決定するのに役立つ。
このオプションを指定すると
.B file
は
.BR stat (2)
が返すファイルサイズを無視する。
これは raw ディスクパーティションのサイズを
0 として返すシステムも存在するためである。
.TP 8
.B "\-v, \-\-version"
プログラムのバージョンを表示して終了する。
.TP 8
.B "\-z, \-\-uncompress"
圧縮ファイルの中も検査する。
.TP 8
.B "\-\-help"
ヘルプメッセージを表示して終了する。
.SH ファイル
.TP
.I /usr/share/file/magic.mgc
デフォルトのコンパイル済みのマジックナンバーのリスト。
.TP
.I /usr/share/file/magic
デフォルトのマジックナンバーのリスト。
.TP
.I /usr/share/file/magic.mime.mgc
デフォルトのコンパイル済みのマジックナンバーのリスト。
\-i オプションが指定された場合に、mime タイプを出力するのに使用される。
.TP
.I /usr/share/file/magic.mime
デフォルトのマジックナンバーのリスト。
\-i オプションが指定された場合に、mime タイプを出力するのに使用される。
.TP
.I /etc/magic
マジックナンバーについてのローカルな追加情報。
.SH 環境変数
環境変数
.B MAGIC
はデフォルトのマジックナンバーファイルの名前を設定する。
.B file
はこの変数の値に ".mime" と ".mgc" を適宜追加する
(どちらか一方の場合もある)。
この変数が設定されると、
.B file
は
.B $HOME/.magic
をオープンしない。
.SH 関連項目
.BR magic (4)
\- マジックファイルのフォーマットについての記述。
.br
.BR strings (1), " od" (1), " hexdump" (1)
\- 非テキストファイルを検査するためのツール。
.SH 標準への準拠
このプログラムは System V Interface Definition の
FILE(CMD) より優れていると考えている。
ファイルに含まれている曖昧な言語から決定するという点では似ている。
動作は同じ名前の System V のプログラムとほぼ互換性がある。
このバージョンはより多くのマジックナンバーを認識する。
しかし多くの場合、System V のものとは異なった
(ただしもっと正確な) 出力を行う。
.PP
System V バージョンとの重要な違いは、
このバージョンでは空白を区切り文字として扱うために、
パターン文字列における空白文字をしなければならないという点にある。
例えば、
.br
>10 string language impress\ (imPRESS data)
.br
という既存のマジックファイルは、
.br
>10 string language\e impress (imPRESS data)
.br
のように変更しなければならない。
更にこのバージョンでは、バックスラッシュを含むパターン文字列は
エスケープしなければならない。
例えば、
.br
0 string \ebegindata Andrew Toolkit document
.br
という既存のマジックファイルは、
.br
0 string \e\ebegindata Andrew Toolkit document
.br
のように変更しなければならない。
.PP
Sun Microsystems の SunOS releases 3.2 以降には、
System V のものから派生した
.BR file (1)
コマンドが含まれているが、いくつか拡張されている。
私の作ったバージョンは、Sun のものと些細な違いしかない。
Sun のバージョンは `&' オペレータの拡張が含まれ、
例えば以下のように使われる。
.br
>16 long&0x7fffffff >0 not stripped
.SH マジックディレクトリ
マジックファイルのエントリは、
いろいろな情報源、主に USENET から集められ、
多くの著者から寄贈してもらった。
Christos Zoulas (アドレスは以下) はマジックファイルエントリを
集めたり修正したりしてくれた。
マジックファイルのエントリを整理統合したものは、
定期的に配布される予定である。
.PP
マジックファイルのエントリは順番が重要である。
使用しているシステムによっては、順番の組みが不正であるかもしれない。
古い
.B file
コマンドがマジックファイルを使っている場合、
比較のために古いマジックファイルを残しておくこと
.RI ( /usr/share/file/magic.orig
に名前を変更しておく)。
.SH 例
.nf
$ file file.c file /dev/{wd0a,hda}
file.c: C program text
file: ELF 32-bit LSB executable, Intel 80386, version 1 (SYSV),
dynamically linked (uses shared libs), stripped
/dev/wd0a: block special (0/0)
/dev/hda: block special (3/0)
$ file -s /dev/wd0{b,d}
/dev/wd0b: data
/dev/wd0d: x86 boot sector
$ file -s /dev/hda{,1,2,3,4,5,6,7,8,9,10}
/dev/hda: x86 boot sector
/dev/hda1: Linux/i386 ext2 filesystem
/dev/hda2: x86 boot sector
/dev/hda3: x86 boot sector, extended partition table
/dev/hda4: Linux/i386 ext2 filesystem
/dev/hda5: Linux/i386 swap file
/dev/hda6: Linux/i386 swap file
/dev/hda7: Linux/i386 swap file
/dev/hda8: Linux/i386 swap file
/dev/hda9: empty
/dev/hda10: empty
$ file -i file.c file /dev/{wd0a,hda}
file.c: text/x-c
file: application/x-executable, dynamically linked (uses shared libs),
not stripped
/dev/hda: application/x-not-regular-file
/dev/wd0a: application/x-not-regular-file
.fi
.SH 履歴
少なくとも Research Version 4 以降の全ての \s-1UNIX\s0 に、
.B file
コマンドは含まれている
(man ページの日付は 1973 年 11 月である)。
System V バージョンでは重大な変更が行われ、
マジックナンバータイプのリストを外部に保持するようになった。
この変更はプログラムを幾らかは遅くしたが、とても柔軟にした。
.PP
System V バージョンをベースにしたこのプログラムは、
誰のソースコードも見ずに
Ian Darwin <ian@darwinsys.com> によって書かれた。
.PP
John Gilmore はコードを広範囲にわたって改訂し、
最初のバージョンより改良した。
Geoff Collyer はいくつかの欠点を見つけ、
マジックファイルエントリを提供した。
`&' オペレータについては 1989 年に
Rob McMahon, cudcv@warwick.ac.uk が貢献した。
.PP
Guy Harris, guy@netapp.com は 1993 年から現在に至るまで
多くの変更を行っている。
.PP
Christos Zoulas (christos@astron.com) は 1990 年に最初の開発を行い、
現在までメンテナンスを行っている。
.PP
2000 年の Chris Lowth, chris@lowth.com による変更:
別のマジックファイルと内部ロジックを使い、
``-i'' で mime タイプ文字列を出力するようにした。
.PP
2000 年 7 月の Eric Fischer (enf@pobox.com) による変更:
文字コードを識別し、非 ASCII ファイルの言語を識別するようにした。
.PP
"Magdir" ディレクトリ (/etc/magic ファイルのソース) の貢献者のリストは、
長すぎるのでここには含められない。
貢献してくれた人は自分が貢献したことを知っているでしょう。
感謝します。
.SH 法的な注意
Copyright (c) Ian F. Darwin, Toronto, Canada, 1986-1999.
このソフトウェアは standard Berkeley Software Distribution copyright により
保護されている。
ソース配布にある LEGAL.NOTICE ファイルを参照すること。
.PP
ファイル
.I tar.h
と
.I is_tar.c
は John Gilmore によって書かれたもので、
彼のパブリックドメイン
.B tar
プログラムに由来する。
この 2 つのファイルには上記のライセンスが適用されない。
.SH バグ
magdir にある全てのファイルから Magic ファイルを自動的に構築する
もっと良い方法があるべきだ。
それはどんなものだろうか ?
起動を速くするためには、
マジックファイルをバイナリにコンパイルしておくべきだろう
(つまり
.BR ndbm (3)
や、異なる OS によるネットワーク環境で使うために固定長の
.SM ASCII
文字列にするのも良いだろう)。
これにより、System V バージョンの柔軟性を備えたまま、
同じ名前の Version 7 のプログラムより速くなるだろう。
.PP
.B file
には正確さよりも速度を重視したアルゴリズムが使われているため、
テキストファイルの内容を読み誤ることがある。
.PP
(主にプログラミング言語を対象とした) テキストファイルのサポートは、
単純化されていて不十分であり、更新するには再コンパイルが必要である。
.PP
後続の行を追っていくためには、``else'' 節を付けておくべきである。
.PP
マジックファイルとキーワードで正規表現をサポートすべきである。
.SM "ASCII TAB"
をフィールドの区切り文字として使用するのは、
見苦しく編集しづらいが、定着している。
例えば
.BR troff (1)
コマンドに対する man ページのマクロのように、
キーワードで大文字を許可するようにするのが望ましいだろう。
正規表現がサポートされれば、これが簡単にできるだろう。
.PP
このプログラムは \s-2FORTRAN\s0 を判別できない。
開始行でインデントされているキーワードを見て、
\s-2FORTRAN\s0 であると判断すべきである。
正規表現がサポートされれば、これが簡単にできるだろう。
.PP
.I ascmagic
にあるキーワードは、多分 Magic ファイルに入れるべきだろう。
これはオフセット値に `*' のようなキーワードを使うことで可能だろう。
.PP
その他の最適化としてはマジックファイルのソートがある。
これにより一度読み込んでしまえば、
最初のバイト・最初のワード・最初の long 型、... というように
全てのテストで突き止めていくことができる。
マジックファイルエントリの衝突について苦情を言ってください。
マジックファイルのエントリのソートは、
マジックファイルにおける位置ではなくファイルオフセットで行う、
というルールにするべきだろうか ?
.PP
推定した結果が「どのくらい良いか」を評価する手段を、
プログラムが提供すべきである。
最終的には (例えば ``Newsgroups:'' に対する ``Return-Path:'' のように)
他の推定結果より良くない推定結果
(例えば、ファイルの最初の 5 文字が ``From '' など) は削除する。
しかし他の推定結果が出なければ、
最初の推定結果を使えるようにしておくべきである。
.PP
このプログラムは、いくつかのベンダの file コマンドより遅い。
複数文字コードを新しくサポートしたことで、いっそう遅くなってしまった。
.PP
この man ページ、特にこのセクションが長すぎる。
.SH 入手方法
オリジナルの作者の最新バージョンは、anonymous FTP で
.B ftp.astron.com
のディレクトリ
.I /pub/file/file-X.YZ.tar.gz
から入手できる。
|