2017年06月10日

ツルツルの数学講座「統計学」・・・χ^2分布と適合度検定(10)

storage.mantan-web.jp_images_2017_05_21_20170521dog00m200017000c_001_size8.jpg

さて、いよいよ適合度検定です。ここからは生物学に関心のある人には或いは面白いかもしれませんね。

χ^2分布を適合度検定と呼ばれる検定に使います。

ここではメンデルの交配実験に適合度検定を用いてみます。

メンデルはえんどう豆を交配してどんなえんどう豆になるかを調べていました。

まず色に注目して、豆が

      緑 か 黄色

かで分類します。次に、しわに注目して

      丸い(しわがない) か しわがある

に分類します。そうすると豆を次の4種類に分類できます。

     黄&丸い  黄&しわ  緑&丸い  緑&しわ  

メンデルは数世代にわたって交配しても、これらの性質を持ち続ける純粋な系統(純系)のえんどう豆を選び出しました。そして、この4種類のえんどう豆の相互で交配実験を行いました。

この交配実験で実った556個のえんどう豆を調べた結果、この4種類のえんどう豆の個数は次のように分けることが出来ました。

mendel1.jpg

mende2.jpg

4種類の豆の比率が9:3:3:1の整数比に近いことが分かります。

上記の表からメンデルはある仮説を考えました。

この豆の色やしわの有無を決める遺伝子があると仮定します(メンデルの時代には遺伝子の存在は明らかになっていませんでした)。豆が黄色になる遺伝子をAと書き、緑色になる遺伝子をaと書くことにします。
同様に丸くなる(しわがない)遺伝子をBと書き、しわが出来る遺伝子をbと書くことにします。

従って、

     黄&丸い  黄&しわ  緑&丸い  緑&しわ  

は、遺伝子表記では、

     AB, Ab, aB, ab

となります。
これらの花粉(親)をめしべ(親)に受粉させて、それぞれの親から遺伝子をもらって子のえんどう豆が実るとします。そうすると例えば、花粉の遺伝子がABでめしべの遺伝子がabなら子の遺伝子は

         AaBb

になるだろうと推定できます。このとき、色や形については大文字の遺伝子の方の性質だけが現れると仮定します(この性質が現れる遺伝子を優性遺伝子と呼び、性質が隠れてしまう遺伝子を劣性遺伝子と呼びます)。

すると、この考えをすべての組み合わせについて当てはめると次のような表が出来ます。mendel3.jpg

斜線が入っているのがしわがある豆と思ってください。

この表に従うと、

mendel4.jpg

となります。これが有名なメンデルの法則(の一部)です。

では、適合度検定で556個の豆の分類を理論値と比較して適合度を調べてみましょう。

適合度検定では、この4種類について次のような計算をします。

tekigoudo1.jpg

556個の豆を9:3:3:1に配分すると、312.75:104.25:104.25:34.75になります。これが、理論値です。実験値は315:101:108:32です。

これらの値を上の式に代入して計算すると

tekigoudo2.jpg

となります。

そして、ここからが重要なのですが、この適合度は数学的に自由度が(分類数-1)のχ^2分布に従うことが証明されています(この証明は後日書きます)。

このえんどう豆の実験では分類数は4なので、この適合度は自由度3のχ^2分布に従います。

前の記事で自由度3のχ^2分布のグラフを描いておいたので、それを再掲します。kai2jyo9.jpg

このグラフはExcelの組み込み関数CHIDISTを使って描いたものですが、Excelの組み込み関数にはCHIDISTの逆関数CHIINVも用意されています。

このCHIDISTの逆関数CHIINVを使って5%点の値を求めてみると

    CHIINV(0.05, 3) = 7.81

になります。ですから適合度判定で適合していないと判断する有意水準(この用語は理解されているものとします)をいま5%とするとこの実験の適合度0.47は7.81よりはるかに小さいのでこの実験は理論値によく適合していると判断できます(というかこの実験から理論値を推定したのでよく適合するのは当然なのですが)。

これまで見たようにχ^2分布は適合度検定で活躍する分布だということです。

やっとこのシリーズが終了しました。χ^2分布は母集団の平均が分からないときに威力を発揮するということです。

ツルツルの数学講座「統計学」は面白かったのでこのまま続けます。

次のシリーズでは一般の統計でよく使われるt分布をやろうと思います。

では。






posted by tsurutsuru at 18:05| Comment(0) | 日常茶飯事

ツルツルの数学講座「統計学」・・・χ^2分布と適合度検定(9)

storage.mantan-web.jp_images_2017_05_21_20170521dog00m200017000c_001_size8.jpg

今回は標本分散のχ^2分布について説明します。

まず、次の用語は理解できているとします。

 母集団、標本、標本調査、標本平均、標本分散、母数、推定量、不偏推定量、不偏標本分散

ここで、次が重要です。

   (1)標本分散は、不偏推定量ではない
   (2)不偏標本分散=n/n-1 * 標本分散

さて、それでは標本分散のχ^2分布について説明していきます。

kai2jyo10.jpgkai2jyo11.jpgkai2jyo12.jpg

これでχ^2分布についての説明は一通り終了です。

次回はχ^2分布の応用として適合度検定の説明をします。

今回はこれで終わりです。








posted by tsurutsuru at 05:46| Comment(0) | 日常茶飯事

ツルツルの数学講座「統計学」・・・χ^2分布と適合度検定(8)

storage.mantan-web.jp_images_2017_05_21_20170521dog00m200017000c_001_size8.jpg

今回は適合度検定の説明で使うので、自由度3のχ^2分布のグラフを描いておきます。

kai2jyo9.jpg

自由度1のχ^2分布のグラフとは違っています。

今回はこれで終わりです。次回は標本分散のχ^2分布について説明します。

posted by tsurutsuru at 04:11| Comment(0) | 日常茶飯事

ツルツルの数学講座「統計学」・・・χ^2分布と適合度検定(7)

storage.mantan-web.jp_images_2017_05_21_20170521dog00m200017000c_001_size8.jpg

さて、いよいよ自由度2以上のχ^2分布ですが、ここでは結果だけを書いておきます。
kai2jyo6.jpg

kai2jyo7.jpg

kai2jyo8.jpg

ここでやっと最初にやったガンマ関数が出てきました。

これでχ^2分布の基本的な理解は出来たので、いよいよその応用として適合度検定です。

ただ、次回はそこで使うので自由度3のχ^2分布のグラフを描いておきます。

今回はこれで終了です。




posted by tsurutsuru at 03:56| Comment(0) | 日常茶飯事