出会い - 日々のつれづれ

今日はいろんなことがあった。
どれも高度で理解が及ばないが、多くのことを勉強させてもらった。
それでも、心に残った言葉があった。
最近、大切なことがどんどん頭から消えて行く。
だから、書き止めよう。

「自分の思いをちゃんと理解していただくには、相手の思いを理解することからですよ」
いや、忘れる分けがないですよ。だって、今も怒られることだから。でも、できてないってことは、忘れてるのと一緒なんだな。

ロジスティック回帰モデルは線形モデルなのか？、非線形モデルなのか？

言われるまで意識に上らなかった。確かにどちらだろうか？
僕なりの結論　「線形モデルであって欲しい」。

モデルを実際に利用する人（作る人でない）は、きっと非線形なんて分かろうという気にならない。
おそらくケーキを半分に分けるときに、綺麗で真っ直ぐな切り口じゃないと嫌な気持ちになる、という感覚に似ていると思う。
だから、SVMのような判別空間すらはっきりしないモデルは、判別精度が高くても数字のお遊びに見えると言われてしまう。
悲しいことです。

そこで、いい言葉をもらった。
試行回路は決定木ににている。簡単なモデルから入り、徐々に複雑なモデルを説明すればイメージしてもらいやすい。
確かに、決定木からLDA、SVMへの流れは、判別解析を習う立場だ。

データには外れ値がつき物。でも、外していいの？そもそも外れ値って何？

元データ　→　外れ値検出（マハラノビスとか？）　→　人間が外れ値かどうか判断　→　除外を決定
　と普通はなると思う。でも、人の判断が毎回入ったらキリがない。
それに、外れ値を除くと、のぞいた中にも外れ値が出てくる。
らっきょの皮がどこまでか分からないのと似てると思った。
（スクリーニング現象というらしい）

ロバスト回帰（robustbaseライブラリ）が使えるそうだ。
推定法はM、L、Rの3種類あって、M推定法はモデル適合度が悪い点の重みを下げるそうだ。（M推定法は最尤推定の一般化になっているらしい）

でも、M推定は説明変数の外れ値にはロバスト、説明変数には弱いそうで、MM推定（lmrob関数）を使うと解決できることが多いらしい。
高次元になると重み付け関数のパラメータチューニングが大変
だから、実世界にどこまで使えるのか、興味深いと思った。

空間データの取扱いはオープン系で完結するらしい。

分析はR
視覚化はQuantam GISやGoogle Earth
格納はPostgresSQL
データが集めやすくなった分、収集データと実世界のデータの統合が大変になる。当然、外れ値も増える。解釈も大変になる。

空間パターンのコンテクスト（文脈）、相手が事前に持っているイメージ、解析の結果で分かる事実、その間の世界の違いをどのようにして埋めてゆくのか、これが大切。
似た状況でも、説明変数の選び方で雰囲気は変わる。

この違いを説明するために、何か別のキーワードを重ねると解釈が深まるケースがあるそうだ。

大量データの視覚化で、どこをどのように見せたいのか？
相手の思考にあわせて、インパクトのある表現が必要。
その通りだと思った。僕はその能力がない。だから、いつも悩む。