回帰分析 最小二乗法とは





ここが回帰分析の2から3点アップ問題です。

今まではこの最小二乗法を出すためのステップです。
回帰分析は過去のデータもしくは採取したデータをもとに今後どう予測を立てるかが大事なのです。

散布図にプロットした点はバラバラ。
だけど、何となく右上に向かって伸びてるなぁ、右下の向かって伸びてるように見えるなあ。
相関もあるし、無相関でもない(過去ブログ参照)
じゃあこのデータを使って予測してみよう。

この表覚えてますか?
CapD20160427053217.png
以前この表を張り付けたとき、図の中の直線は今は気にしないでください。
というニュアンスの言葉を書いたと思いますが、この直線こそが最小二乗法で導き出された直線なのです。

この直線がどういう直線なのか簡単に説明すると。すべての点と直線の距離の和が最小になる直線なのです。
そして点と直線の距離というのは『実測値と予測値(直線の値)のズレ』です。
これを『残差』といいます。

つまり言い換えれば
ズレ(残差)を含めて一番データの予測がしやすい直線(もっともらしい直線)が最小二乗法で出される『回帰直線』で、それをもとに今後のデータ予測をするのです。

そしてもうその出し方は、これまでのブログをたどれば解けるのです。

この直線y=a+bxという直線式になります。
これはできればわかる前提で話をしたいのですが軽く触れます。
aは切片の値です。切片というのはxが0の時の値です。つまりグラフのy軸(縦に伸びる軸)と直線の交差する値です。
bxのbは直線の傾きです。そしてyの値はxがある値の時その値に傾きbをかけて切片aを足した値です。

まずは傾きの出し方です。
傾きはこの公式で出します。
βの上に^がありますがこれはbと思ってください。
(ややこしいので軽く見てもらえればいいですが^っていうのは実際に無い値の時に使います。回帰直線はそれらしい直線を予測で導き出しているだけなので、実際に存在する直線ではないのです。なので^を用います。試験では傾きがβ^切片がα^で出ることもあるのでとりあえずb=β^ a=α^と思ってもらえれば試験的には大丈夫です。)
CapD20160621215844.png
偏差積和S(xy)をxの偏差平方和S(xx)で割るだけです。
これで傾きを出せます。そして1点ゲットです。
そして次はa(切片を出します)
おそらく問題にはxとyの上に横棒が付いた値が出されていると思います。
これはデータのxとyの平均の値です。この『回帰直線』は必ずこの平均を通過するのです。
問題文にはこのxとyの数値の値が出されていると思います。
万が一書いてなければデータを足してデータ数で割ってください。
つまり




CapD20160621215834.png
この式のxとyに代入してやればいいのです。
そうするとa以外の値が埋まるのでaが出ますね。
これで2点目ゲットです。

第21回の試験でもそうでしたが、相関係数とこのa、bの値これが求められれば3点ゲットでした。

私が統計問題は回帰分析を初めにしようといった理由はここにあります。
①公式が比較的簡単
②一連の流れで3点程度ゲットできる
③代入が多い
④中学の一次関数の応用なので多少なじみがある。
回帰分析のメインどころはこんな感じです。
次回は補足的な説明をしたいと思います。

私なりにかみ砕いた説明をしたつもりですが一度では理解できないかもしれません。
お手持ちの参考書と合わせてみると理解が深まりますでしょうか?

私はここまでで実践分野と統計以外の手法分野を合せてギリギリ合格ラインに達するくらいになったのでは?
と思っています。

次は実験計画法にいけたらと思いますがリア多忙で中々更新できません。
悪しからずご了承ください(-_-;)






この記事へのコメント