回帰分析 無相関検定とは

最近色々と追われていて久々アップになりました。

本日は無相関検定です。
これは正直試験にはそれほどでないかと思いますが、知っておくと回帰分析の理解の深まる内容です。

相関係数とその相関の強さについては触れましたが、この『無相関検定』
とはそもそも『相関が強い弱い』でなく、『有るのか無いのか』を調べるための検定です。

一般的にデータ数が少なければ、『相関強いけど、そもそもこのデータ信じていいの?』という話になってきますね。
品質管理検定では『分布』と呼ばれる表をよく使います。というか2級テストにおいては重要です。
いずれアップするつもりでいるので、今回はそれほど深く触れませんがこの『無相関検定』は【t分布】と呼ばれる分布を利用し相関の有る無しを判定します。

まだピンと来ない方はこんな例えどうでしょう?
データが二つしかない場合、散布図にプロットした2つのデータ同士を線で結ぶと必ず一直線です。
前回記述した通り散布図のデータが一直線に近いほど相関があります。
データが2つの場合は必ず一直線になりますから 相関係数は1もしくは-1となりとても強い相関が得られます。でも3個目4個目・・・のデータを採ったときとんでもないところに点が打たれたら相関有った思ったのに、実は無かったってことになりますよね。

そんなことを事前に防ぐための検定なのです。つまりデータ数が少なければ少ないほど厳しく判定されます。
その公式はこれです。




CapD20160608231619.png
写真の内容通りに数字をあてはめるとtの値が出ます。
例えば
r(相関係数)=0.7 
n(データ数)=15
とすると、
rとnに代入してやって計算します(小数点以下第4位を四捨五入)
t=3.535という値が出てきます。
この数字が相関の有る無しを比べられる値になります。
次にt分布
t表と呼ばれるものが次の図になります(t分布は後日)
CapD20160608222552.png
今回はさらっと入りますが、データ数からこの場合2を引いたものが表に書いてある自由度となります。
(※自由度は必ずしもn-2にはなりません。むしろ品質管理検定2級ではn-1で使うことが多いですが、無相関検定の場合、自由度=n-2です)
そして、今回は一般的な検定ということで確率95%を選択します。
≪品質管理検定では『有意水準5%』『危険度5%』ともいいます。意味はどれも95%の確率で正しいということができる。という意味です。厳しい検定をするときは99%(『有意水準1%』『危険度1%』)を選択しますが、一般的な検定では95%を使用します。試験も95%での出題が多いです。≫

なのでデータ数15-2=13(自由度)と95%の結ぶところを見ます。
すると『2.160』という数字があります。
この数字が今回のデータ数と相関係数で出た数字と比べる数になります。
データから導いた数は3.535
t検定で出した数字は2.160
データから出した数字の方が大きいです。
このt検定で出した数字を上回ればこのデータは強くても、弱くても相関があるということができるのです。
(あくまで95%の確率でいえる。)
この立証がなければ次のステップには進めませんが、試験は意外とすっ飛ばしてくることが多いです。




偏差平方和と相関係数、参考の無相関検定を終えたところで、これでようやく回帰分析の得点源ともいえる最小二乗法の説明に入ることができます。

はかどっていない宅建の勉強に毎日更新の私の兄弟ブログの更新・・・
そして仕事・・・時間が作れませんが頑張って更新していこうと思います。

ちなみに私の兄弟ブログと YOUTUBE チャンネル良かったら息抜きに見てください。
ページの最下部にリンク貼ります


この記事へのコメント