Loading [MathJax]/jax/output/CommonHTML/jax.js

第 2 回 Q-Qプロット、第2回課題

本日の内容


このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。

2-1. 確率(1)

定義

事象により、確率変数 X はある値をとる。 Xの変域として実数を考える。 Xx以下の 値を取る確率 Pr(Xx) を累積分布関数 F(x) という。 累積分布関数 F の導関数 f を確率密度関数といい、 F(x)=x-∞f(t)t で定義する。 これは F(-∞)=0F()=-∞F(t)=-∞f(t)t=1 を満たす。 Pr(X<a,Y<b)=Pr(X<a)Pr(Y<b) のとき、 XY は独立であると言う。

平均 μ=Ex(X)-∞xF(x)=-∞xf(x)x である。 分散は σ2=Var(X)=Ex((x-μ)2)

Ex(aX+Y+b)=aEx(X)+Ex(Y)+b
Var(X)=-∞(x-μ)2f(x)x=-∞x2f(x)x-2μ-∞xf(x)x+μ2=Ex(X2)-Ex(X)2
Var(aX+b)=Ex((aX+b)2)-Ex(aX+b)2=a2Ex(X2)+2abEx(X)+b2-a2Ex(X)2-2abEx(X)-b2=a2Var(X)

確率変数 X が平均 0、分散1のとき、 Y=σX+μ は平均 μ、分散 σ2 になる。 X の 確率密度関数が f(x) であるとき、 Y の 確率密度関数は Pr(Yy)=Pr(σX+μy)=y-μσ-∞f(t)t=y-∞1σf(s-μσ)s より 1σf(x-μσ) となる。

モーメント母関数(積率母関数)を MX(t)=Ex(etX)

特性関数を φX(t)=Ex(eitX)=-∞eitxF(x)=-∞eitxf(x)x とする。 これは確率密度関数のフーリエ変換になるので、 逆フーリエ変換を考えると次が成り立つ。 f(x)=12π-∞eitxφX(t)t

中心極限定理と正規分布

X1,...,Xn を 独立で、 平均が μで 分散が σ2 となる、任意の同じ確率分布の確率変数とする。 このとき、 Sn=X1+...+Xnnが大きくなると 平均 nμ 、 分散 nσ2 の正規分布に収束する。

証明

Zn=Sn-nμnσ2 が平均0, 分散 1 の正規分布に従うことを示す。

Zn の積率母関数を考える。

MZn(t)=Ex(etZn)=Ex(etX1-μnσ2)·...·Ex(etXn-μnσ2)=Ex(etX-μnσ2)n
=Ex(1+11!X-μnσ2t+12!(X-μnσ2)2t2+O(n-32))n
=(1+tnσ2(Ex(X)-μ)+12(tnσ2)2Ex((X-μ)2)+O(n-32))n
=(1+tnσ2(μ-μ)+12t2nσ2σ2+O(n-32))n
=(1+0+t22n+O(n-32))n
et22

特性関数は φZn(t)=MZn(it)=e-t22 となるので、これを逆フーリエ変換して確率密度関数関数を求める。

f(x)=12π-∞eixte-t22t=12π-∞e-x22e-(t-ix)22t=12πe-x22-∞e-s22s=12πe-x22

Q.E.D.

平均 μ 分散 σ2 の正規分布を N(μ,σ2) で表す。 確率密度関数は 12πσe-12(x-μσ)2Φ(x)=12πx-∞e-t22t とすると、累積分布関数は Φ(x-μσ)

モーメント母関数は
Ex(eXt)=-∞ext12πσ2e-(x-μ)22σ2x
=12πσ2eμt+σ22t2-∞e-s22σ2s
=eμt+σ22t2

様々な確率分布(1)

指数分布
平均 1/λ 、 分散 1/λ2 の指数分布の確率密度関数は f(x)=λe-λx 、累積分布関数は f(x)=λe-λx 。 モーメント母関数は 11-t/λ
対数正規分布
確率密度関数は 12πσ2xexp(-12(lnx-μσ)2) 、累積分布関数は Φ(lnx-μσ)

再生性

確率分布族に含まれる確率分布 F1, F2 に従う確率変数 X1, X2 に対して、 Y=X1+X2 の確率分布が同じ確率分布族に含まれるとき、 その確率分布族は再生性があると言います。

直接確率分布を計算する他に、モーメント母関数から求める方法がありま す。 Yのモーメント母関数は Ex(eYt)=Ex(e(X1+X2)t)==Ex(eX1t)Ex(eX2t) より、モーメント母関数の積が同じ確率分布族になる場合、再生性がある と言える。

正規分布
N(μ1,σ21) , N(μ2,σ22) のそれぞれのモーメント母関数 eμ1t+σ212t2 , eμ2t+σ222t2 の積を考えると e(μ1+μ2)t+(σ21+σ22)2t2 となり、 N(μ1+μ2,σ21+σ22) のモーメント母関数となるため、再生性を持つ。
指数分布
対数正規分布

2-2. Q-Qプロット

Q-Qプロットの Q は quantiles分位数を意味します。 累積分布関数Fを持つ確率分布に従うとき、 q分位数 Qqq=F(Qq) となる値である。 Q-Qプロットは定義とすれば、2つの確率分布 D1, D2 について、 q分位数 がそれぞれ Q1(q), Q2(q) とすると、 q をパラメータとして (Q1(q),Q2(q)) をプロットしたものが Q-Qプロットになる。 もし、 D1D2 が同じ分布のとき、 このグラフは y=x のグラフになる。 n個のデータ x1,...,xn , ( x1...xn ) の i番目のデータを in 分位数 とみなし、 また、このデータが従う確率分布の累積分布関数が F(X) のとき、 (xi,F-1(in)) をプロットすると、 y=x 上に並ぶ。 もし、 このデータ系列が また、このデータが従う確率分布の累積分布関数が F(σX+μ) に従っているとき、 (xi,F-1(in)) をプロットすると、 y=σx+μ 上に点が並ぶ。 つまり、平均、分散をパラメータとして与えられる確率分布に 従うデータに関しては、 平均0、分散1の確率分布の分位数を考えることで、 Q-Qプロットで直線が得られる。

特に、 N(0,1) の累積分布関数 Φ に関して、 (xi,Φ-1(in)) をプロットするのを 正規確率プロット と呼ぶ。

Q-Qプロットをすると、与えられたデータが仮定した確率分布とどの程度 類似しているかを可視化できる。 なお、仮定する確率分布として、正規分布の他、指数分布や対数正規分布など、 様々なものが使われる。

課題

以下のデータをダウンロードし、何らかの確率分布を仮定し、Q-Qプロット で類似性を可視化すること。 また、Q-Qプロットから確率分布を推定しなさい。

  1. data21.csv
  2. data22.csv

坂本直志 <sakamoto@c.dendai.ac.jp>
東京電機大学工学部情報通信工学科