読者です 読者をやめる 読者になる 読者になる

jackstatの日記

統計学に関する話題をまとめます。自分の勉強用という側面が大きいので不正確な記述があるかもしれませんが悪しからず。

極値統計学 その1

 最近余暇に勉強している極値統計学について入門的な内容をまとめてみます. 以下の議論は高橋、志村 (2016)を参考にしました. 不正確な点はすべて私のいい加減さが原因です.

 

 ※数式モードの設定不良のだと思うのですが数式中で「>」,「<」が出力できないようなので(いずれ修正します.)それぞれ {\gneq,\ \lneq} で代用することにします.

 

 確率変数列 {X_1,...,X_n} はある同一の分布関数 {F(x) = P(X_1 \le x)} を持ち、独立であるとする. またこれらの順序統計量を {X_{(n,1)} \le \cdots \le X_{(n,n)} }, さらに最大値を {Z_n = \max_{1 \le i \le n} X_i} などと書くことにする.

 極値統計学では大きく分類して、

  1. {n} が十分大きいときの {Z_n} の分布
  2. 上位 {r} この順序統計量の同時分布
  3. 十分大きな {u \in \mathbb{R}} に対して {X \gneq u} を条件づけたときの{X-u} の分布

 に興味がある.

 想定している現実の状況としては {X_1,...,X_n} をある地域の日降水量だと思えば, それぞれ 1.「各年の最大降水量の分布」, 2. 「各年の上位5番目までの日降水量の同時分布」, 3. 「ある大きな値を超える水準の降水量の分布」などと考えることができる.

 

 今回は特に1の確率変数列の最大値の分布について, いくつかの具体的な分布に対して {n \to \infty} としたときの漸近分布を導出することをゴールにする. 

 例1. 指数分布

 {X_1,...,X_n} は標準指数分布(すなわち {F(x) = 1 - e^{-x}})に独立に従うとする. このとき直接 {Z_n = \max_{1 \le i \le n} X_i} の分布を考えると, 任意の {x \in \mathbb{R}} に対して

{ P(Z_n \le x) = P( \max_{1 \le i \le n} X_i \le x) =  (F(x))^n = (1 - e^{-x})^n \to 0 }

となって意味のある分布収束先をもたないことがわかる.  そこで, {Z_n} が何らかの確率変数に分布収束するように"基準化"することを考える. 具体的には

 {Z_n - \log n}

を考える. このとき, 任意の {x \in \mathbb{R}} に対して

{P(Z_n \le x) = (F(x + \log n))^n =  (1 - e^{-(x + \log n )})^n =  (1-\frac{e^{-x}}{n})^n \to e^{-e^{-x}} }

となって,  {Z_n - \log n}ある非自明な極限分布を持つことがわかる.( 最後の極限は有名公式 { \lim_{n \to \infty} (1 + a/n)^n = e^a} から. ) この極限分布のことを"グンベル(Gumbel)分布"という. すなわち, ある確率変数が {G(x) = e^{-e^{-x}}} という形の分布関数を持つとき, その確率変数をグンベル分布に従うという.

 

 次回以降の投稿でその他の例と体系化を行う予定です.

 

参考文献です.

極値統計学 (ISMシリーズ:進化する統計数理)

極値統計学 (ISMシリーズ:進化する統計数理)