8.2. 文字の種別
日本語入力等の活用で、さまざまな文字を入力できますが、 使用目的に応じて適する文字を使いましょう。
文字の役割 #
文字の役割を、 (1) 人が読んで分かれば良い良いものと、(2) コンピュータが自動処理するもの2種類に分けて考えます。 前者はさらに自分か読むか他人が読むかで分けます。
(1a) 自分が読む:
- 自分用のメモ、
- 授業のノート
(1b) 他人が読む:
- レジュメ、チラシ
(2) コンピュータが処理
- URL
- 電子メールアドレス
- パスワード
- ファイル名
- コマンド
- プログラムのソースコード
前者は、極論すれば人に読めるなら文字でなくても画像でも問題ありません。
b
と 6
はある程度似ているので少しなら打ち間違えても文脈から読んでもらえるかもしれません。一方、
後者では厳密に別の文字と扱われますし、そうする必要があります。
後者で大切な原則は、人とコンピュータの文字の認識が一致していることです。 あたり前に感じるかもしれませんが、これが困難なことを符号化の章で学習します。それまでは「安全な」文字を使うことでリスクを減らせます。
ASCII印字可能文字 #
ASCII印字可能文字 は、 英数字入力状態で普通に入力できる (Shift キーは使っても良い)、
- アルファベットの大文字小文字、
- 数字、
- いくつかの記号
で構成されます (正確には ASCII コードで定義しますが、ここでは割愛します)。 短く、半角英数字あるいは半角記号と呼ぶこともあります。
これらの文字は歴史が長く安全です。パスワードには、通常、この英数字と記号の一部を使うことが許されます。
ただし バックスラッシュ\
と 円記号¥
だけは要注意です。
日本語やさまざまな文字 #
漢字カタカナひらがななど日本語の文字は、過去には
EUC-JP
, SHIFT_JIS
, CP932
, ISO-2022-JP
などさまざまな取り扱い方法があり、しばしば文字化けの問題が生じてました。
いまは UTF-8
でうごくシステムがほとんどなので緩和されています。
ただし、ひらがなやカタカナの濁点・半濁点のついた文字は今でも要注意です。濁点等と一緒に表現するか (例が
)、清音と濁点記号に分解して表現するか (例か
+゙
)、複数の取り扱い方法があるためです。
コンピュータが同一性を判定する (2) では避けた方が良い、つまり、ファイル名には使わない方が無難でしょう。
絵文字は比較的あたらしく制定されました。対応していないシステムもあるかもしれません。 またゴシック体と草書体で見た目が異なるように、絵の雰囲気も異なるかもしれません。
他の言語や記号を含めると多数の文字があります。フォントが対応していないと、読めないかもしれません。
安全な習慣 #
当面、深く学ぶまでのあいだ、 HWB のお勧めは以下の通りです:
- 紛らわしい文字は使わない
- 似た文字が ASCII 印字可能文字にある場合はそちらを使い、日本語入力で変換して表示することは避ける。
例: ローマ数字Ⅱ
ではなくII
(大文字アイを二つ),(
ではなく(
, - いわゆる半角カナは避ける。
- 似た文字が ASCII 印字可能文字にある場合はそちらを使い、日本語入力で変換して表示することは避ける。
- 上記の方針を離れるときは、十分に慣れてから行う
- 例外: 自分で読む (1a) や仲間内の文書はあまり気にせず自由に書く
次のクイズは見た目から文字を区別することの難しさの体験です。
次の紛らわしい文字がそれぞれなにかを予想して、コピーペーストを使わずに入力しようとしてみましょう。 すべて1文字で、1, 3, 6 はASCIIの普通の文字です。
x
x
х
-
−
2, 4 はいわゆる全角文字 (日本語入力で変換可能なもの)、5はキリル文字、7は区間を表すunicode文字 (pdfからコピーペーストするとたまに生じます) です
一部のものは不正解でも構いません。難しさを体験することが主旨です。