8.2.1 文字コード

コンピュータでは文字情報が符号化されています.符号化というのは, ある規則に従って,コンピュータ内部で扱えるような情報の形式に変換することです. この符号化の方式は, JIS (Japan Industrial Standard: 日本工業規格)や ANSI (American National Standard Institute), ISO (International Organization for Standardization) などで規格として定められています.

一般に文字の符号化は,「文字」と「数値」の対として与えられます. この文字に対応する数値のことを文字コードと呼びます. また, ある規格において符号化を定めている文字全体の集合を 文字集合(文字セット)と呼びます. たとえば,Unicodeは, 世界の主な文字を文字集合として 16ビットの文字コードを定めたものです. 16ビットというのは,0か1かの情報を16個並べたもので,16ビットの情報で,最大2 16 通りの文字が表現できることになります.

欧米で用いられるアルファベットは文字の種類が少ないため, 少ないビット数で文字を表現できます. この英数字(アルファベットと数字)の文字コードとしてよく用いられるのが, ANSIの制定したASCII (American Standard Code for Information Interchange)です.

ASCIIでは 7ビットの文字コードを規定しています.7ビットとは,0か1かという情報が7つ分ということです. 27=128通りの文字が表せます. ただしコンピュータ内部では,(主としてハードウェア的な制約から)通常は,8ビットを使って文字を表現します.8ビットは,コンピュータにとってキリがいい単位で,8ビットのことを1オクテットと表現します.