疑惑の真偽を検討する。ポワソン分布を用いた尤度比検定。

疑惑のデータ
各種SNSで記事を共有

🔄 最終更新日 2020年4月23日 by takara_semi

疑惑の真偽を数学的に検討する

数十年前の話になりますが「ボールが変わってホームランが増えた!」との疑惑を呼んだ「統一球問題」の真偽を数学的に検討する方法としてポワソン分布を用いた尤度比検定を紹介します。この方法は汎用性の高い手法で、疑こと真偽が疑わしいデータが与えられたときに、その実際を検討するのに有効な手法となります。

統一球問題を検討する

タカラゼミ_統一球問題_001図のような、各年度の本塁打数のデータが与えられたとします。平成25年度の本塁打数が不自然に増加していないかどうかを検討します。そのために、(1) 平成24年度と平成25年度のデータの比較(H24 vs H25) (2)平成23年度と平静24年度のデータの比較(H23 vs H24)を行っていきます。まず初めに(1)(2)それぞれの問題に対して次のような仮説をたてます。

(1) $\small{H_0:\lambda_{24}=\lambda_{25} \ H_1:\lambda_{24} \neq \lambda_{25}} $
(2) $\small{H_0:\lambda_{23}=\lambda_{24} \ H_1:\lambda_{23} \neq \lambda_{24}} $

(1)の場合、尤度比検定の手続きは次のようになります。まず尤度$\small{L}$は以下のように表すことができます。

タカラゼミ_統一球問題_002

尤度$\small{L}$を用いると尤度比$\small{LR}$は次のように表せます。

タカラゼミ_統一球問題_003

これは$\small{H_0}$の下で一般に

タカラゼミ_統一球問題_004

となることから、対数尤度比統計量$\small{-2\log LR}$の値により

タカラゼミ_統一球問題_005

と決定する検定を行うことができます。なお、有意水準$\small{\alpha}$が0.05と0.01の場合の$\small{\chi_1^2(\alpha)}$の値は

タカラゼミ_統一球問題_006

となります。続いて今回の統一球の問題における尤度比$\small{LR}$を計算します。

タカラゼミ_統一球問題_007

ここで、上式中の各関数を最大化する$\small{\lambda(\lambda > 0)}$を$\small{\hat{\lambda}}$と定義すると

タカラゼミ_統一球問題_008

となります。この結果を先の式に代入すると尤度比$\small{LR}$は

タカラゼミ_統一球問題_009

と求まります。よって対数尤度比統計量$\small{-2\log LR}$は

タカラゼミ_統一球問題_010

となり、設問(1)(2)で与えられたデータを代入すると次の結果が得られます。

タカラゼミ_統一球問題_011

(1)の例では有意水準1%,5%において帰無仮説$\small{H_0 : \lambda_{24}=\lambda_{25}}$が棄却され,(2)の例では,有意水準1%,5%において帰無仮説$\small{H_0 : \lambda_{23}=\lambda_{24}} $は棄却されないことが尤度比検定により言えます。つまり,平成23年度と平成24年度とでは本塁打数の優位な違いはなく、平成24年度から平成25年度にかけては優位水準1%で本塁打が増えたといえ、その原因として「統一球の仕様が変更されていたのではないか」と推測することができます。

検定結果の正しい理解

検定の結果、先述した統一球問題では有意水準1%において帰無仮説$\small{H_0 : \lambda_{24}=\lambda_{25}}$が棄却されました。ここから言える結論としては「平成24年度と同じ条件で平成25年度に512本もの本塁打が偶然出る確率はわずか1%以下」ということであり「99%以上の確率で本塁打の増加は偶然ではない」とは言えません。それはなぜでしょうか。

仮説検定の手順としては、上述の通り、最初に帰無仮説$\small{H_0}$を設定しました。有意水準は「帰無仮説を棄却する基準」と定義されています。仮説検定では、得られたデータから検定統計量を計算し、データの分布関数より、その値が生じる確率を計算します。その確率が有意水準を下回ったときに、帰無仮説を棄却し「有意差がある」といえます。つまり有意差があるとは、積極的に違いがあることを認めているのではなく「有意水準を下回るような確率でしか生じない事象は偶然生じたとは考えられないので帰無仮説が成り立っているとは考えにくい」という意味でしかありません。

今回の統一球問題に当てはめて考えると「1%を下回るような確率でしか本塁打数が同じだという現象は起きない。ゆえに偶然本塁打数が大きく違ったとは考えられないので帰無仮説が成り立っているとは考えにくい」という意味となります。つまり有意差があるといっても、違いがあることを完全に保障しているのではなく「違いはないと積極的に言うことは難しい」という消極的な否定の意味合いが強いのです。

なので結局、有意であるというだけでは「偶然とは考えにくい」と言うことはできても「偶然ではない」とまでは断定できないのです。それゆえ、今回の統一球問題では「平成24年度と同じ条件で平成25年度に512本もの本塁打が偶然出る確率はわずか1%以下」と言うことはできても「99%以上の確率で本塁打の増加は偶然ではない」とは言えないのです。統計データの検定結果について議論する際は、注意が必要です。

各種SNSで記事を共有
takara_semi
著者紹介 旧帝大学生。自然科学/社会学/教育学/健康増進医学/工学/数学など、および学際的な研究領域に興味があります。

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

error: