このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。
事象により、確率変数 X はある値をとる。 Xの変域として実数を考える。 Xが x以下の 値を取る確率 Pr(X≤x) を累積分布関数 F(x) という。 累積分布関数 F の導関数 f を確率密度関数といい、 F(x)=∫x-∞f(t)ⅆt で定義する。 これは F(-∞)=0 、 F(∞)=∫∞-∞ⅆF(t)=∫∞-∞f(t)ⅆt=1 を満たす。 Pr(X<a,Y<b)=Pr(X<a)Pr(Y<b) のとき、 X と Y は独立であると言う。
平均 μ=Ex(X) は ∫∞-∞xⅆF(x)=∫∞-∞xf(x)ⅆx である。 分散は σ2=Var(X)=Ex((x-μ)2)
確率変数 X が平均 0、分散1のとき、 Y=σX+μ は平均 μ、分散 σ2 になる。 X の 確率密度関数が f(x) であるとき、 Y の 確率密度関数は Pr(Y≤y)=Pr(σX+μ≤y)=∫y-μσ-∞f(t)ⅆt=∫y-∞1σf(s-μσ)ⅆs より 1σf(x-μσ) となる。
モーメント母関数(積率母関数)を MX(t)=Ex(etX)
特性関数を φX(t)=Ex(eitX)=∫∞-∞eitxⅆF(x)=∫∞-∞eitxf(x)ⅆx とする。 これは確率密度関数のフーリエ変換になるので、 逆フーリエ変換を考えると次が成り立つ。 f(x)=12π∫∞-∞eitxφX(t)ⅆt
X1,...,Xn を 独立で、 平均が μで 分散が σ2 となる、任意の同じ確率分布の確率変数とする。 このとき、 Sn=X1+...+Xn は nが大きくなると 平均 nμ 、 分散 nσ2 の正規分布に収束する。
Zn=Sn-nμ√nσ2 が平均0, 分散 1 の正規分布に従うことを示す。
Zn の積率母関数を考える。
特性関数は φZn(t)=MZn(it)=e-t22 となるので、これを逆フーリエ変換して確率密度関数関数を求める。
Q.E.D.
平均 μ 分散 σ2 の正規分布を N(μ,σ2) で表す。 確率密度関数は 1√2πσe-12(x-μσ)2 。 Φ(x)=1√2π∫x-∞e-t22ⅆt とすると、累積分布関数は Φ(x-μσ) 。
確率分布族に含まれる確率分布 F1, F2 に従う確率変数 X1, X2 に対して、 Y=X1+X2 の確率分布が同じ確率分布族に含まれるとき、 その確率分布族は再生性があると言います。
直接確率分布を計算する他に、モーメント母関数から求める方法がありま す。 Yのモーメント母関数は Ex(eYt)=Ex(e(X1+X2)t)==Ex(eX1t)Ex(eX2t) より、モーメント母関数の積が同じ確率分布族になる場合、再生性がある と言える。
Q-Qプロットの Q は quantiles分位数を意味します。 累積分布関数Fを持つ確率分布に従うとき、 q分位数 Qqは q=F(Qq) となる値である。 Q-Qプロットは定義とすれば、2つの確率分布 D1, D2 について、 q分位数 がそれぞれ Q1(q), Q2(q) とすると、 q をパラメータとして (Q1(q),Q2(q)) をプロットしたものが Q-Qプロットになる。 もし、 D1 と D2 が同じ分布のとき、 このグラフは y=x のグラフになる。 n個のデータ x1,...,xn , ( x1≤...≤xn ) の i番目のデータを in 分位数 とみなし、 また、このデータが従う確率分布の累積分布関数が F(X) のとき、 (xi,F-1(in)) をプロットすると、 y=x 上に並ぶ。 もし、 このデータ系列が また、このデータが従う確率分布の累積分布関数が F(σX+μ) に従っているとき、 (xi,F-1(in)) をプロットすると、 y=σx+μ 上に点が並ぶ。 つまり、平均、分散をパラメータとして与えられる確率分布に 従うデータに関しては、 平均0、分散1の確率分布の分位数を考えることで、 Q-Qプロットで直線が得られる。
特に、 N(0,1) の累積分布関数 Φ に関して、 (xi,Φ-1(in)) をプロットするのを 正規確率プロット と呼ぶ。
Q-Qプロットをすると、与えられたデータが仮定した確率分布とどの程度 類似しているかを可視化できる。 なお、仮定する確率分布として、正規分布の他、指数分布や対数正規分布など、 様々なものが使われる。
以下のデータをダウンロードし、何らかの確率分布を仮定し、Q-Qプロット で類似性を可視化すること。 また、Q-Qプロットから確率分布を推定しなさい。