8.2.2 漢字コード

一方, 漢字を含む日本語に使われる文字の表現方法としては,JISコード(ISO-2022-JP),日本語EUC,シフトJISコード(SJISコード)という異なる三つの方式が広く使われています.これらの方式で, 漢字は基本的に2バイトで表現されます. Mac OS Xなどの普通のオペレーティングシステム上ですべての形式が利用可能です. すなわち,JISコードで書かれた文章ファイルも作れるし,日本語EUCで符号化されたファイルも読み書きできるということです.アプリケーションごとに「エンコーディング形式を選ぶ」ということをすれば漢字コードが選択できます.エンコーディングの形式とは,符号化の形式ということです.

Mac OS Xのアプリケーションでは,シフトJIS形式が中心的に用いられています.しかし,インターネットにメールを送るときには,JISコードに変換されて送られます.日本語EUCコードは,伝統的にUNIXというオペレーティングシステムで用いられてきた漢字コードです.iMac端末にインストールされているソフトウェアにも, 伝統的なUNIX由来のソフトウェアには,日本語EUCに変換しないと扱えないものも存在するでしょう.

JISコード,日本語EUC,シフトJISは,基本的に同じような文字集合に対しての,異なる符号化の形式なので, 相互に変換することが可能です.しかし,それらとは異なる流れで,漢字を含む文字コードとして,Unicodeが存在します.Unicodeは,世界中の文字を,一つのコード体系に符号化してしまおうという考えに基づいたコード体系です.Mac OS Xにおいても,Unicodeが利用できます.UTF-8や,UTF-16というエンコーディング形式がUnicodeに対応します.

tips

教育用計算機システムのiMac端末で使えるいくつかのアプリケーションでは,教育用計算機システム独自のカスタマイズとして,デフォルトの文字エンコーディングがUTF-8に変えられているものがあります.

なお漢字コードや ASCIIについては, 情報と符号化の章のrelated_s19.5 文字に詳しい説明があります.