k-meansクラスタリング実装メモ
k-meansクラスタリングを実装してみたのでメモ.
gist:
続きを読む特に,不等式制約条件におけるLagrangeの未定乗数法の考え方のメモ.
参考資料:
元ネタはこちらの記事 コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - 木曜不足.
cos類似度は計算しやすいので,言語処理界隈では単語ベクトルや画像理処理界隈ではヒストグラムをベクトルに見立てその2つが似ているかどうかに使われやすい.
上記の記事をよくよく考えると,cos類似度は次元数によって珍しい類似度の値が変わるので 極端に1に近い数字,0に近い数字が出ても鵜呑みにしてはいけないんじゃないかと思ったので,それについてのメモ. (この解釈が正しいのか,スパース界隈の論文探せば触れてそうだけど似たような図が出てこなかったのでちょっとわからん.)
TheanoやPytorchのforward関数やbackward関数がどういう計算しているのか知りたくなったので, そのメモ.
今回はニューラルネットワークの線形和部分は無視して, 関数の微分値を求めることを考える.
事象の排反と統計的独立,この2つは確率の教科書の最初の方に登場し, 読み進めていくと(教科書の問題は基本的に整備されている・もしくは暗黙的に仮定されている場合が多く)ここを意識していなくてもトラブルなく, いざ実データを見たときにこのデータは排反なのか特に統計的独立といっていいのかどうか悩むあるあるのような気がするのでメモ.