22.7 文書のデータ形式

プレーンテキストファイルとリッチテキストファイル

文字のデータを中心とした文書ファイルは,テキストファイル形式の文書と,非テキストファイル形式の 文書に分けることができます.

テキストファイルのデータは,文書のレイアウトの情報や,文字の大きさの情報などがはいってなくて,どの文字を並べているかのデータだけで成り立っています. 非テキストファイルと特に区別するときには,プレーンテキストファイルという言い方をします.

プレーンテキストファイル形式でない文書ファイル,すなわち文字のフォントの大きさや色や,下線が引かれているかなど付加的な情報もはいっているファイルがあります.Microsoft Word などのワープロソフトが利用可能なデータ形式には, リッチテキストと呼ばれるものがあります. リッチテキストでは, フォントなどの付加的な情報がデータの中に入っています.

PDF

PDF (Portable Document Format) は, 最近,インターネットなどで標準的となりつつある文書形式で, 文書の中に絵などのデータをいれることができることができます. PDF は Adobe 社が開発した形式です. 文字や図形の情報を点の集まりとしてのイメージではなく, ここにこういう大きさの円を書きなさいとか, ここのこういうフォントで, こういう大きさのこういう字を書きなさいなどという形で記述しているものです. よって, 文字部分のデータは (画像ではなく) 文字情報としてデータを保持しているので, 文章中の単語の検索などができます.

PDFファイルに対応する拡張子はpdfです.Adobe Acrobat というアプリケーションを使えば, PDF ファイルを単に閲覧するだけでなく, PDFファイルを直接編集することができます.(Adobe Readerというのは,Adobeのサイトから無料でダウンロードできるアプリケーションで,編集はできませんが, PDFファイルの閲覧ができるものです.) Mac OS X のウインドウシステムの内部でも, 画面を表現するのに PDF が利用されています.

PostScript

PDF と似た形式で, ページ記述言語を使った形式として, PostScript 形式があります. ページ記述言語とは, 文字や図形の情報を点の集まりとしてのイメージではなく, ここにこういう大きさの円を書きなさいとか,ここのこういうフォントで, こういう大きさのこういう字を書きなさいなどという形で記述しているものです. 対応する拡張子は,psです. PostScript言語も Adobe社が開発しているページ記述言語で,ある意味 PDF の前身ともいえるものです. PostScript言語 は,プリンタに 印刷する図形を送るときにも用いられることがあります.PostScript言語を解釈するプリンタは PostScriptプリンタと呼ばれます.PostScript形式のファイルは, プリンタの解像度に依存しないような,文字や図形の記述が可能なために,高品質な 印字が可能です.

PostScript言語 で書かれたファイルの一部をお見せします. 中を気にする必要はありません. PostScript言語 自体は, 以下のような感じでテキストで記述しますが, ほとんどの場合は,何かのアプリケーションにより自動生成されて,直接,人間がPostScript言語を いじることはまれだといっていいでしょう.

/FullName (CMBSY7) readonly def
/FamilyName (Computer Modern) readonly def
/Weight (Bold) readonly def
/ItalicAngle -14.035 def
/isFixedPitch false def

PostScript形式のファイルは, ターミナルのコマンドラインからps2pdfというコマンドで,PDFファイルに変換することができます.

promptps2pdf hogehoge.ps return2

とすると,hogehoge.pdfという PDFファイルができます.

Mac OS X上では画像の閲覧ソフトのPreviewというアプリケーションでPostScriptファイルを見ることが できます.Previewでは,PostScriptから一度 PDFに変換してから表示しているので, PreviewでPostScriptファイルを見たときには, 自動的にPDFファイルが生成されています.