データマイニングと連関規則
「連関規則」(association rule。「連想規則」や「相関規則」とも訳されるらしい)とは、「Aが起こると、Bが発生する」(「A→B」)という規則のこと。Aの方を「ルールヘッド」、Bの方を「ルールボディ」と呼ぶ。有名な例として、「風が吹けば桶屋が儲かる」ということわざが挙げられる。
「データマイニング」では、この規則を利用した分析手法が採用されている。
データマイニング(Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術。
通常のデータの扱い方からは想像が及びにくい、発見的(heuristic)な知識獲得が可能であるという期待を含意していることが多い。
この学問に興味があったので、読んでみたのが下記の書籍。
数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書) | |
光文社 2006-05-17 売り上げランキング : 68506 おすすめ平均 |
「玉飛接近は避けよ」の連関規則的解説
この中の「連関規則」の説明で、上記の「風が吹けば桶屋が儲かる」以外の例の1つとして、将棋の格言が取り上げられていた。将棋ファンとしてはとてもうれしく誇らしいことだ。
■玉飛接近は避けよ
(中略)この格言は棋理に長けた棋士が作った可能性もあるのだが、仮に自然発生的なものだった場合、やはり気の遠くなるほど負け続けた人々がいて、「なんで俺は負けちゃうんだ」と考えたのが発端だったのではないだろうか。
●玉と飛車がくっついていた時は、どうも負ける確率が高い
●いやいや、矢倉囲いの時にどうしても負けるようだ
●僕は美濃囲いにすると必ず負ける例えば、こんな敗因候補があったかもしれない。そして、このどれもが格言になる可能性を秘めていたのだが、
●確かに僕も玉と飛車を近づけて駒組みした時は、負け越している
●何を馬鹿な。矢倉は優秀な戦法だ
●美濃囲いで負け知らずだ。下手なのを囲いのせいにするな
などといった他人の情報によって淘汰され、結果として蓋然性の高い「玉飛接近は避けよ」が格言として定着したと思われる。
なんとも、論理的とはいえないゆる〜い解説だなぁ、と私は感じてしまった。
ちなみに、これら格言が「棋理に長けた棋士が作ったもの」か「自然発生的なものか」、と考えた場合、前者なのではないかと私は思う。信頼できる棋士が発言して初めて定着する、というケースが一般的に多い気がする。一番可能性が高いのは、原田泰夫九段だろうか。
現在に伝わる格言の多くは、原田泰夫九段が作ったといわれている。その原田九段の師匠が、名著『将棋は歩から』で知られる加藤治郎名誉九段。とすれば、原田格言も加藤名誉九段にルーツがありそうだ。本書はその加藤名誉九段の著。『将棋は歩から』と同様の論理明快な解説は健在。
書籍書評
さて、上記の「数式を使わないデータマイニング入門」。書籍全体を通して、データマイニングの各種分析手法が上記のようなゆるゆるな感じで解説されている。そのため、以前簡単に述べたように、まだ十分に体系化されていない学問、という印象を受けてしまった。「数式を使わない」内容だから仕方ないとはいえ、もっと説得力のある内容に仕上げられる気がするのだが。
書籍内で、ステップアップとして下記書籍が紹介されている。余裕ができたら読んでみることにする。
やさしい確率・情報・データマイニング | |
森北出版 2004-05 売り上げランキング : 262638 by G-Tools |
データマイニング手法―営業、マーケティング、CRMのための顧客分析 | |
Michael J.A. Berry
海文堂出版 2005-10 おすすめ平均 |
コメント