18.5 文書の符号化

文字の符号化ができると,文書の符号化ができます.私たちが使うテキスト形式や PDF 形式の文書,そしてワープロソフトで作る文書は,どのように符号化されるのでしょうか?

プレーンテキスト形式とマークアップ

最も簡単な文書符号化方式は,テキスト形式です.テキスト形式の文書は文字の情報しか持たないため,1 つ 1 つの文字に対応する文字コードを並べていくだけで文書が作れます.実際にテキストファイルの中身を,hexdump というコマンドで 16 進法に直したビット列で表すと,確かに個々の文字に対応するコードが並んでいることが見て取れます.

またプレーンテキストだけでは書式の設定は行えませんが,特別な文字に書式の意味を持たせることによって,プレーンテキストの中でも書式を表現できます.こうした手法をマークアップといいます.マークアップにより修飾されたテキストは,専用のアプリケーションで表示すると書式が反映されるようになります.

以下,いくつか典型的なマークアップ書式の例を紹介します.

HTML
HTML は,私たちに最も馴染みのあるマークアップ方式です.ブラウザを通して表示されるウェブページの構造は,全て HTML という言語に従って書かれています.HWB 内では hwb17. ウェブサイトを作る技術 において,HTML の使い方を詳しく説明しています.
wiki 記法
wiki は,ウェブサイト上の文書を書き変えるためのシステムです.たとえば externalウィキペディア は,wiki を使って誰もが編集可能なオンライン百科事典です.色々なバリエーションがありますが,どれも「* から始まる行は一番大きい見出し,+ から始まる行が続いたら順序付き箇条書き」などというように,いくつかの記号で書式を指定します.
Markdown 記法
2004 年に作られたマークアップ記法の一つです.プログラマに好んで使われることが多いように思われます.

PDF

PDF はもともと Adobe 社が作った文書フォーマットです.現在では externalISO 32000-1:2008 によって国際規格化されています.

PDF 文書の特徴は環境に依存せず同じ見た目を保つことです.実際にはフォントの埋め込みをしなければならない等の問題はありますが,きちんと作れば誰にでも同じ見た目の文書を見せられます.また PDF 閲覧に必要なソフトウェアは無料で提供されているので,PDF 形式なら確実に情報が伝えられると判断して良いでしょう.

一方 PDF 形式は「見せ方」に特化したファイル形式なので,他の情報は内部で失われています.たとえば PDF 文書中に表が現れたとしても,PDF 文書中では「単なる文字の並び」に過ぎません.ですからコピー & ペーストしても,きちんとした表の形にはならないことがほとんどです.

Microsoft Office 形式 (Office Open XML)

Microsoft Office の定める文書形式は Office Open XML という名前になっています.

この文書形式に関して重要なのは,符号化方式が公開されているという点です.一般の人が分厚い技術文書を読むのは不可能にしても,情報が公開されているおかげで,Microsoft 以外の組織が Office 形式のファイルを操作できるようになっています.このおかげで,以前は Microsoft Office 形式のファイルの互換性がほとんど無かったのですが,今では Microsoft Office 形式のファイルを扱えるアプリケーションがいくつも登場するようになっています.