数式を使わないデータマイニング入門 隠れた法則を発見する

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

「数式を使わずにデータマイニングをする方法」の入門書ではなく、「数式を使わずに」データマイニングの基礎知識と主要な手法を解説した入門書です。

  • まえがき
  • 第1章 隠れた法則を見つける技法
    • 打ち出の小槌ではない
    • 従来の統計処理とどう違うのか
    • 情報蓄積のコストが低くなった
    • 厖大なデータから砂金を見つける
    • 未来を予測する
    • 素人にも出来る?
    • 見つけた法則が必ず役立つとは限らない
    • 大元の理屈やしくみを理解する必要性
    • 意味づけは人間が行う
  • 第2章 ビジネスで使われるデータマイニング
    • データウェアハウスの構築
    • 商圏を調べる
    • 顧客の傾向を知る
    • 不良顧客の切り捨て
  • 第3章 データマイニングの手順
    • まずは何を知りたいのか決める
    • データの集め方
    • 今あるデータを活用するのは結構むずかしい
    • 不必要なデータの削除
    • 何をてがかりに使うか
    • まず一つの情報であたりをつけてみる
    • 失敗は次の解析に活かせる
    • 次の属性を見てみる
    • 異常値の取り扱い
    • 一つの属性による仮説の限界
    • 複数の属性にまたがる隠れた法則を見つける
  • 第4章 落としどころを探る―回帰分析
    • もう少しもっともらしい解析の仕方
    • 仮説を作る
    • 最小二乗法という考え方
    • 説明変数が増えると複雑化する
    • 回帰分析がうまくできないデータ
    • 複数の分析手法を使いこなす
  • 第5章 効率的に判断する―決定木
    • 定性的な情報
    • 決定木を育てすぎると過学習になる
  • 第6章 分けることは分かること―クラスタ分析
    • 先生が教えてくれるのか、自分で考えるのか
    • 自分で考える教師なし分類
    • モビルスーツを分けてみる
  • 第7章 複雑な分類―自己組織化マップ
    • わけの分からなさ
    • 多次元データを二次元に圧縮する
    • 自己組織化マップ=コホーネンネット
  • 第8章 買い物かごの中身は?―連関規則
    • 再び、紙おむつとビール
    • 役に立つルールは見つかるか
    • 関係性が認められないルール、既知のルール
    • 連関規則を作ってみる
    • 格言には連関規則が多い
    • 人力データマイニング
    • ロングテール
    • 競争力の源泉は情報
  • 第9章 神経をまねしてみる―ニューラルネット
    • 強力な学習能力と並列性
    • 神経回路を模倣する
    • 基本メカニズムはとてもシンプル
    • 学習の方法
    • ニューロン同士の結合
  • 第10章 データマイニングと情報管理
  • 第11章 監視社会とデータマイニング
    • 利用者の要求から生まれた監視
    • 曖昧な境界線
    • 目的がすり替わる
    • 情報による認識
    • 監視情報の共有と分析
    • 利便性の罠
    • 情報強者がすべてを享受する
  • 参考文献

実践的な手法よりも根本的な考え方の解説に重点が置かれています。
単なるデータマイニング礼賛ではなく、色々な手法毎の向き不向き分野や、データマイニングそのものの限界についてはっきりと明確に述べられている点に好感が持てます。
文章は非常に読みやすく、例題のネタもユーモアたっぷりです。
(装甲とコストによるモビルスーツクラスタ分析や、自己組織化マップによる軍用機の分類には笑わされました。)
既に仕事でデータマイニングを駆使している人には物足りない内容でしょうが、これからデータマイニングを学ぶ人が具体的な手法を身につける前に一読する書としては非常に適していると思われます。
実践を学ぶ前にしっかりと基本的な考え方を押さえておくために一読をお勧めします。