18.2.6. データの永続性に関する問題
20 世紀中盤以降の情報技術の革命によって、私たちが扱える情報の量は爆発的に増えています。ほんの 1 世紀ほど前まで「情報を記録するための手段」は紙くらいしかありませんでした。それが今では、親指サイズの USB フラッシュメモリに 100GB を越える量のデータが入るようになっています。たとえば「1 文字あたり 4 バイト」「文庫本における 1 ページあたりの文字数は高々1000 文字」という状況を考えると、100 GB というデータ容量は、1000 ページの文庫本が 2 万 5000 冊丸々入る大きさなのです。このようなフラッシュメモリをはじめとする記憶装置が日々大量に生産されているのですから、私たちが扱うデータの量の増え方は、まさに爆発と言える勢いです。
ところがその一方で、「いま生み出されるデータが、どの程度の将来まで読めるか」という問題が起こっています。短期的には、デジタルデータの
- 複製が自由自在にできる
- データの記録に間違いがあっても、誤り訂正符号などの技術によってある程度修復できる
という特性のおかげで、アナログデータよりデジタルデータの方が記録に有利と言えます。しかしデジタルデータを人類が扱い始めたのはここ 50 年ほどに過ぎず、人類の歴史と比べるとまだ圧倒的に短い期間に過ぎません。ですから「長期的にデータが保存可能か」という問題については、人類がこれから取り組まなければならないのです。その一端を垣間見てみましょう。
ハードウェアの問題 #
まず最初に、ハードウェアのレベルでの問題があります。 17.5. 補助記憶装置 で紹介するように、私たちは普段、データを HDD, SSD や光ディスクといった 2 次記憶装置に保存しています。これらに記録されたデータは 1 日や 2 日で消えることはなく、少なくとも数年は保存が可能です。ところが数十年単位で見ると、こうした長期記憶装置の多くがデータを失ってしまう恐れがあるのです。ですから「一度デジタルデータを保存したから、もう安心」と気を抜いて数十年データを放置すると、いつの間にかデータが失われてしまうことがあるのです。
かたやアナログデータに関しては、現時点で既に 1000 年単位での情報保存に成功しています。たとえばロゼッタストーンは紀元前に書かれた石板ですが、大英博物館に行けば、それを 21 世紀に生きる私たちが見ることができます。このような 1000 年単位でのデジタルデータの保存は、今の技術では難しいでしょう。
ソフトウェアの問題 #
続いて、ソフトウェアのレベルでの問題があります。 14. 情報の表現と符号化・暗号化 で紹介するように、コンピュータに保存されるデータは文字であれ音声であれ、最終的には 0 と 1 の組合せとして保存されます。このデータを 0 と 1 の羅列に対応させる規則、つまり符号化の方式は人間が恣意的に決めたものに過ぎません。ですから、符号化方式が分からなくなってしまえば、0 と 1 の羅列は全く意味をなしません。そして現に、時間の経過に伴って符号化方式が切り替わる現象は起きています。たとえば文字の符号化には UTF-8 が他の方式を淘汰しつつありますし、動画の符号化方式も年々進化しています。私たちは「符号化方式」の情報を残さないと、記録された情報が扱えなくなる恐れがあるのです。
さらに符号化方式の情報があるからといって、データが将来に渡って永続的に利用可能かは別問題です。というのも、古い符号化方式は得てして新しい符号化方式に取って代わられるため、サポートするソフトウェアが年々減っていくからです。たとえば今「1993 年に発売された Windows 3.1 上にて、表計算ソフト Lotus 1-2-3 で作ったデータ」が手渡されたとして、それを読めるでしょうか?頑張れば読めるかもしれませんが、おそらく相当苦労するでしょう。このように、符号化方式が変わっていくことで、過去のデータが失われてしまう恐れがあるのです。
アーカイブの構築 #
こうしたデジタルデータの長期保存に関わる問題は、アーカイブの構築を直撃します。
これまで人類は大量の書物を作り出し、それが世界中の図書館に保存されてきました。現在ではそうした書物たちがインターネットを通して自由に使えるよう、デジタル化が進められています。またデジタル方式でのデータ表現方法が発展したおかげで、絵画や音楽の演奏といった書物に収まらないデータも保存ができるようになっています。たとえば
Google Cultual Institute では、世界中の多くの美術館や博物館の展示品がオンラインで眺められます。また国立国会図書館は、東日本大震災の記録を残すために
ひなぎく というアーカイブを構築しています。ですがこうしたデータは全て、デジタルデータの永続性の問題に晒されているのです。
こうした問題に取り組むには、たとえば
- データのバックアップ体制を万全にする
- 定期的にデータの保存状況を検査し、失われる恐れがあるデータは別の媒体に保存し直す
- データの保存形式を定期的に見直し、必要に応じて符号化方式の変換を施す
などの作業が必要になってきます。しかし人類はこれらの問題に直面したばかりで、現在その対応が検討されている最中です。一体どのような策が考えられるのでしょうか?