文書の符号化

14.3. 文書の符号化

人が読む文書は、文字以外にも、フォントや文字の大きさ、字間、行間、イラスト、ページの余白など様々な指定を経て、読みやすいように作成されます。

つまり 12. 文字による伝達 で紹介した文字を符号化することに加えて、様々な指定方法を定め、表現する必要があります。そのような方法には複数あります。大雑把に分類すると、読むために適する方法と書くことに適する方法があり、後者で作成したものを前者で配布することが一般的です。

読む・配布 書く テキスト形式
PDF, EPUB
Office XML (✓)
HTML, Markdown, LaTeX (✓)

3行目のHTMLなどの手法は、すべての指定をテキスト形式で行います。そのため、人にも読めますし、git (github も含む) などバージョン管理との整合性も高いです。 よく使われる PDFやOffice形式では、たとえばフォントの指定は GUIで指定することはできても、ファイル内のこの部分がこの文字のフォントを指定しているなどを人が読むことは想定していません。

PDF #

PDF は、 Adobe 社が作成し現在では ISO でも標準化されている文書形式です。 環境に依存せず同じ見た目で閲覧できるので、保存や配布に適しています。 ほとんどの環境でPDF 閲覧が可能なので、教材や事務手続きなど、紙の資料の代わりに配布されることも多いでしょう。 読むことを想定したファイルとして使われますが、ハイライトや注釈、編集も可能です。

文字 v.s. 画像
PDF内に文字だけでなく画像も掲載できるので、スキャンした画像もPDFとして保存することもあります。 その場合は、別途OCR などで文字認識を行わない限り、文字の情報はありません。 つまり、同じPDFでも、文字をコピーペーストできるか、視覚補助のための読み上げツールが使えるかなどは、作成方法によって異なります。

PDFの作成手法は、さまざまです。 多数の文章作成ソフトウェアが、PDFでの保存機能を定期要しており、Google docs でのPDF作成 ( 10.6. PDF作成 ) や LaTeX ( 27. LaTeX ) をHWB でも紹介しています。

iMac端末では「印刷」の選択肢に「PDF」で保存を選べます。 右図は、 Chrome でHWBを表示し ファイル印刷 を選んで表示されるダイアログです。左下に、PDF関係の選択肢があります。

EPUB #

電子書籍でよく使われる、読むための文書形式です。 ユーザの端末に応じて、文字の大きさを変更して、ページの割り振りを変更することができます。 ページレイアウトにこだわる必要がないときは、PDFより読みやすいでしょう。 Amazonの電子書籍の .mobi なども似た目的の文書形式です。

Office XML #

Microsoft Word が有名ですが、Google docs や Libre Office など office 互換ソフトウェアは、 Office Open XML という共通の文書形式での保存機能を提供しています。

書いたり編集することに適しています。一方で、環境の違い (e.g., Microsoft Windows か macOSか あるいは携帯電話か) で細かい見た目は変わります。 たとえばPCにインストールされているフォントが異なれば、字の形も変わります。

テキスト形式 #

文書内容と見た目の指定を、同時に文字で表すこともできます。 たとえば html では文書の見出しを <h1>htmlを学ぼう</h1> のように、「htmlを学ぼう」という見出しの文字列とそれを囲む<h1></h1> 見出しの目印 (タグ、広い意味ではマーク) で表現します。

Markdown
簡潔さを重視した記法です。Colabで採用されています。またHWBも、arkdown記法で書いたものを html に変換して作成しています。次のボタンで開いて、文章部分をダブルクリックすると、領域分割された左側で編集することができます HWB-markdown.ipynb
HTML
HyperText Markup Language でウェブのための形式です。 HWB も含めて、ブラウザを通して表示されるウェブページの構造は、HTML で書かれています。 上述の例のように括弧を開いて閉じるように目印をつけることをマークアップと呼びます。XML という、ウェブ以外にも応用を広げた、マークアップ言語もあります。
LaTeX
数式の記述に特に優れる記法です。 27. LaTeX で紹介します。一部は Colab でも使えます。

これらの形式は文書本文もマークも同じテキストなので、原則としてはテキストエディタで編集することができます。

12.6. テキストファイルとmi

長期間保存する文書は、文書形式がオープンで人に読みやすく、 互換ソフトウェアが多くあり可能ならオープンソースソフトウェアもある、という方法を選ぶと有利です。未来も読める可能性が高いと期待されるためです。

精度と誤差 文書の符号化 画像の符号化