数式を使わないデータマイニング入門隠れた法則を発見する

作者: 岡嶋裕史
出版社/メーカー: 光文社
発売日: 2006/05/17
メディア: 新書
購入: 27人クリック: 123回
この商品を含むブログ (87件) を見る

「数式を使わずにデータマイニングをする方法」の入門書ではなく、「数式を使わずに」データマイニングの基礎知識と主要な手法を解説した入門書です。

まえがき

第1章隠れた法則を見つける技法

打ち出の小槌ではない

従来の統計処理とどう違うのか

情報蓄積のコストが低くなった

厖大なデータから砂金を見つける

未来を予測する

素人にも出来る？

見つけた法則が必ず役立つとは限らない

大元の理屈やしくみを理解する必要性

意味づけは人間が行う

第2章ビジネスで使われるデータマイニング

データウェアハウスの構築

商圏を調べる

顧客の傾向を知る

不良顧客の切り捨て

第3章データマイニングの手順

まずは何を知りたいのか決める

データの集め方

今あるデータを活用するのは結構むずかしい

不必要なデータの削除

何をてがかりに使うか

まず一つの情報であたりをつけてみる

失敗は次の解析に活かせる

次の属性を見てみる

異常値の取り扱い

一つの属性による仮説の限界

複数の属性にまたがる隠れた法則を見つける

第4章落としどころを探る―回帰分析

もう少しもっともらしい解析の仕方

仮説を作る

最小二乗法という考え方

説明変数が増えると複雑化する

回帰分析がうまくできないデータ

複数の分析手法を使いこなす

第5章効率的に判断する―決定木

定性的な情報

決定木を育てすぎると過学習になる

第6章分けることは分かること―クラスタ分析

先生が教えてくれるのか、自分で考えるのか

自分で考える教師なし分類

モビルスーツを分けてみる

第7章複雑な分類―自己組織化マップ

わけの分からなさ

多次元データを二次元に圧縮する

自己組織化マップ＝コホーネンネット

第8章買い物かごの中身は？―連関規則

再び、紙おむつとビール

役に立つルールは見つかるか

関係性が認められないルール、既知のルール

連関規則を作ってみる

格言には連関規則が多い

人力データマイニング

ロングテール

競争力の源泉は情報

第9章神経をまねしてみる―ニューラルネット

強力な学習能力と並列性

神経回路を模倣する

基本メカニズムはとてもシンプル

学習の方法

ニューロン同士の結合

第10章データマイニングと情報管理

変質するデータマイニング

データマイニングの黎明期

オープン化によって増大する流入情報

他人の方が自分について詳しい

自分の情報をどうコントロールするか

コントロール不能なネットワーク

個人情報保護法は消費者を守れるか

自ら情報を管理する必要性

第11章監視社会とデータマイニング

利用者の要求から生まれた監視

曖昧な境界線

目的がすり替わる

情報による認識

監視情報の共有と分析

利便性の罠

情報強者がすべてを享受する

参考文献

実践的な手法よりも根本的な考え方の解説に重点が置かれています。
単なるデータマイニング礼賛ではなく、色々な手法毎の向き不向き分野や、データマイニングそのものの限界についてはっきりと明確に述べられている点に好感が持てます。
文章は非常に読みやすく、例題のネタもユーモアたっぷりです。
(装甲とコストによるモビルスーツのクラスタ分析や、自己組織化マップによる軍用機の分類には笑わされました。)
既に仕事でデータマイニングを駆使している人には物足りない内容でしょうが、これからデータマイニングを学ぶ人が具体的な手法を身につける前に一読する書としては非常に適していると思われます。
実践を学ぶ前にしっかりと基本的な考え方を押さえておくために一読をお勧めします。