27.1 概要

この章では大量のテキストデータから自分のほしい情報を抽出する方法を学びます. 例としてとりあげる, Web サーバ のログファイルには, 1. いつ, 2. 誰が,3. どのウェブページをみたかが記録されています.

例えば

157.82.40.158 - - [12/Apr/2004:21:00:38 +0900] "GET /~cc76805/ HTTP/1.0" 404 281

という行は,

見ようとした人がいる,ということを示しています.

これらは1日分でも500行以上という膨大な量になります. この大量のデータの中から,

という作業を例にデータ処理について実習します.