構造学習についての思い出

[mixi 2009-04-10]

LASSOに代表されるようなL1ノルムによる構造学習がはやりのようである. 

そのほかにも,2乗ノルムで縮小してから閾値かますとか,それにもう1階層載せて自動的に結合を切るとか,それに変分ベイズを加えるとか,まあいろいろである.

* * *

ただまあ,だいぶ昔から,そういうのはあるというか,そういう方向が大事だというのはわかっていたわけで,私もなんどか盛り上げようとしたり,自分でも多少は絡もうとしたことがある.

研究会としては,1998年にこれをやった.

統計数理研究所研究会
重回帰分析・ニューラルネットワークにおける変数選択とベイズ的方法
1998年 1/30-1/31
http://www.ism.ac.jp/~iba/prog.htm

この中に出てくるうちで,一番古いのは石黒先生のやつで,私が「切れる」(結合が零になる)話を聞いたのはこれが最初である. 論文にはなっていないが,以下の報告が和文で「統計数理」にちょっとだけ載っている.

石黒真木夫 (1989.3.22-23). 準ガウス分布の設計と利用 , 年度研究報告会.

ガウス分布という事前分布を考えて重回帰をやって,MAPを取ったら,どうも零になったりもする・・ というような話で,かなり怪しいところもあるが,当時の統数研では,時系列や関数の平滑化事前分布ばかりやっていたので新鮮だった.

もちろん,当時から階層ベイズは常識でした.

そのあと,「L1だと切れる」というのに重点を置いて,「構造学習」を打ち出した仕事を独立に聞いたのだが,それが,石川先生の

Masumi Ishikawa: Structural Learning with Forgetting
Neural Networks, vol.9, No.3, pp.509 − 521(1996)

このあたりをまとめて何かできないの,というのが上の集会の意図だったのだが,完全に空振りでしたね〜

* * *

自分でも,狭義の構造学習(切れるやつ)ではないが,変数選択ものとして
http://arxiv.org/abs/cond-mat/9808071
というのを書いたことがある. ファジーの人が沢山いる会議でポスターやったら,外人がもっとポスターの色を派手にしないと受けないというコメントをくれた.

実はもっと前に,普通の2乗のやつ(切れないやつ)については,ニューラルネットシナプス減衰項の汎化に対する効果はリッジ回帰と同じで・・ というようなメモを1989年か1990年くらい(Mackay/Nealより前)に書いたけど,それは日の目を見ませんでした.
# 限定復刻版「幻の学位論文」の中に入ってます (笑)