日々のつれづれ

不惑をむかえ戸惑いを隠せない男性の独り言

出会い

今日はいろんなことがあった。
どれも高度で理解が及ばないが、多くのことを勉強させてもらった。
それでも、心に残った言葉があった。
最近、大切なことがどんどん頭から消えて行く。
だから、書き止めよう。

「自分の思いをちゃんと理解していただくには、相手の思いを理解することからですよ」
いや、忘れる分けがないですよ。だって、今も怒られることだから。でも、できてないってことは、忘れてるのと一緒なんだな。

  • ロジスティック回帰モデルは線形モデルなのか?、非線形モデルなのか?

言われるまで意識に上らなかった。確かにどちらだろうか?
僕なりの結論 「線形モデルであって欲しい」。

モデルを実際に利用する人(作る人でない)は、きっと非線形なんて分かろうという気にならない。
おそらくケーキを半分に分けるときに、綺麗で真っ直ぐな切り口じゃないと嫌な気持ちになる、という感覚に似ていると思う。
だから、SVMのような判別空間すらはっきりしないモデルは、判別精度が高くても数字のお遊びに見えると言われてしまう。
悲しいことです。

そこで、いい言葉をもらった。
試行回路は決定木ににている。簡単なモデルから入り、徐々に複雑なモデルを説明すればイメージしてもらいやすい。
確かに、決定木からLDA、SVMへの流れは、判別解析を習う立場だ。

  • データには外れ値がつき物。でも、外していいの?そもそも外れ値って何?

元データ → 外れ値検出(マハラノビスとか?) → 人間が外れ値かどうか判断 → 除外を決定
 と普通はなると思う。でも、人の判断が毎回入ったらキリがない。
それに、外れ値を除くと、のぞいた中にも外れ値が出てくる。
らっきょの皮がどこまでか分からないのと似てると思った。
(スクリーニング現象というらしい)

ロバスト回帰(robustbaseライブラリ)が使えるそうだ。
推定法はM、L、Rの3種類あって、M推定法はモデル適合度が悪い点の重みを下げるそうだ。(M推定法は最尤推定の一般化になっているらしい)

でも、M推定は説明変数の外れ値にはロバスト、説明変数には弱いそうで、MM推定(lmrob関数)を使うと解決できることが多いらしい。
高次元になると重み付け関数のパラメータチューニングが大変
だから、実世界にどこまで使えるのか、興味深いと思った。

  • 空間データの取扱いはオープン系で完結するらしい。

分析はR
視覚化はQuantam GISGoogle Earth
格納はPostgresSQL
データが集めやすくなった分、収集データと実世界のデータの統合が大変になる。当然、外れ値も増える。解釈も大変になる。


空間パターンのコンテクスト(文脈)、相手が事前に持っているイメージ、解析の結果で分かる事実、その間の世界の違いをどのようにして埋めてゆくのか、これが大切。
似た状況でも、説明変数の選び方で雰囲気は変わる。

この違いを説明するために、何か別のキーワードを重ねると解釈が深まるケースがあるそうだ。

大量データの視覚化で、どこをどのように見せたいのか?
相手の思考にあわせて、インパクトのある表現が必要。
その通りだと思った。僕はその能力がない。だから、いつも悩む。