「5%の確率で性器を露出するドラえもん」は本当に5%だったのか
「5%の確率で性器を露出するドラえもん」は本当に5%だったのか
はてブを見ていたところ,面白い記事を見つけました.
どうやら,以下のようなBOTだったようです.
「5%の確率で性器を露出するドラえもん」とは、二時間に一回ランダムでドラえもんのひみつ道具をつぶやく人気のTwitterBOTだ。通常は「どこでもドア」「タケコプター」等、普通の道具をつぶやいているのだが、名前の通り5%の確率でひみつ道具ではなく「チンポ(ボロン」とつぶやくのがミソである。 [1]
本当に5%だったのか,正規分布近似を利用した母比率の検定・信頼区間で検証してみたいと思います.
母比率推定問題
真の比率が5%であるのかを知りたいので,統計でいうところの母比率推定問題になります.墓碑率推定問題の代表例は以下がよくあります.
-
池の調査で,池の中にその種類の魚は何割いるか
-
選挙でその政党の得票率はいくらか
-
TVのその番組の真の視聴率は?
今回使用する母比率の検定・推定には,二項分布が正規分布に近似することを利用した手法を使います.資料としては,確率・統計の教科書,WEB資料では[2]が参考になる.
元記事[1]のデータと正規分布近似の母比率の検定・推定より,以下を仮定します.
-
標本比率:$\hat{p} = 4.311\%$
-
標本の大きさ:$N=4059$回
-
標本の大きさは十分大きいとし,母比率は正規分布に近似できるとする.
有意水準5%検定と95%信頼区間
有意水準5%左片側検定
-
帰無仮説:真の母比率 $p=0.05$
-
対立仮設:真の母比率 $p <0.05$
-
棄却域を$P(Z \leq -1.645)=0.05$ より,$Z \leq -1.645$
検定統計量の式は \begin{eqnarray} z = \frac{\hat{p} - 0.05}{\sqrt{\frac{0.05(1-0.05)}{n}}} \end{eqnarray} 代入して, \begin{eqnarray} z = \frac{0.04311 - 0.05}{\sqrt{\frac{0.05(1-0.05)}{4059}}} = -2.017 < Z (=-1.65) \end{eqnarray}
よって帰無仮説が棄却され.有意水準5%で対立仮説$H_1: p < 5 \%$が受容される.
信頼度95%信頼区間
95%信頼区間の導出式は, \begin{eqnarray} \hat{p} - z_{\frac{1-0.95}{2}} \sqrt{\frac{\hat{p} (1-\hat{p})}{n}} \leq p \leq \hat{p} + z_{\frac{1-0.95}{2}} \sqrt{\frac{\hat{p} (1-\hat{p})}{n}} \end{eqnarray} \\ \hat{p} - 1.96 \sqrt{\frac{\hat{p} (1-\hat{p})}{n}} \leq p \leq \hat{p} + 1.96 \sqrt{\frac{\hat{p} (1-\hat{p})}{n}} $$ 0.04311 - 1.96 \sqrt{\frac{0.04311 (1-0.04311)}{4059}} \leq p \leq 0.04311 + 1.96 \sqrt{\frac{0.04311 (1-0.04311)}{4059}}\\ 0.03685 \leq p \leq 0.04935 \\ $$
以上より,有意水準5%片側検定と95%信頼区間では,95%の可能性で真の母比率は5%ではないことを示しています..
有意水準1%検定と99%信頼区間
有意水準1%左片側検定
-
帰無仮説:真の母比率 $p=0.05$
-
対立仮設:真の母比率 $p <0.05$
-
棄却域を$P(Z \leq -2.326)=0.01$ より,$Z \leq -2.326$
検定統計量の式は \begin{eqnarray} z = \frac{\hat{p} - 0.05}{\sqrt{\frac{0.05(1-0.05)}{n}}} \end{eqnarray} 代入して, \begin{eqnarray} z = \frac{0.04311 - 0.05}{\sqrt{\frac{0.05(1-0.05)}{4059}}} = -2.017 >Z (=-2.326) \end{eqnarray}
よって帰無仮説$H_0$は,棄却されず,有意水準1%で 母比率$p=5\%$であるということを否定できない.
信頼度99%信頼区間
99%信頼区間の導出式は, \begin{eqnarray} \hat{p} - z_{\frac{1-0.99}{2}} \sqrt{\frac{\hat{p} (1-\hat{p})}{n}} \leq p \leq \hat{p} + z_{\frac{1-0.99}{2}} \sqrt{\frac{\hat{p} (1-\hat{p})}{n}}\\ \hat{p} - 2.576 \sqrt{\frac{\hat{p} (1-\hat{p})}{n}} \leq p \leq \hat{p} + 2.576 \sqrt{\frac{\hat{p} (1-\hat{p})}{n}} \end{eqnarray} $$ 0.04311 - 2.576 \sqrt{\frac{0.04311 (1-0.04311)}{4059}} \leq p \leq 0.04311 + 2.576 \sqrt{\frac{0.04311 (1-0.04311)}{4059}}\\ 0.03489 \leq p \leq 0.05131 \\ $$
よって, 信頼度99%信頼区間(3.489%, 5.131%) より,真値5%もありえる.
以上より,有意水準1%片側検定と99%信頼区間では,母比率は5%であることを否定できません.
結論
以上より,有意水準1%片側検定と99%信頼区間より,墓碑率(設定値)は5%であったと結論づけます. 有意水準5%と95%信頼区間の場合,有意であり,区間外ではありました.しかし,5%とは$\frac{1}{20}$にはよくあることなので,元記事の取得範囲のデータでは,たまたま出にくかっただけではないかと判断します.
考察:どのくらいの標本の大きさがあれば母比率5%でないといえるか
今までは,標本比率$4.311%$, 標本の大きさ$4059$の場合で扱ってました.今度は,標本平均を固定して,どのくらい標本の大きさがあれば母比率5%でないといえるかを99%信頼区間について見ていきます.
標本の大きさを4200 - 6000まで200刻みで変化させて計算した99%信頼区間を表1にまとめます.
標本の大きさ | 99%信頼区間(%,%) |
---|---|
4200 | (3.504, 5.118) |
4400 | (3.522, 5.1) |
4600 | (3.54, 5.082) |
4800 | (3.556, 5.066) |
5000 | (3.571, 5.051) |
5200 | (3.586, 5.036) |
5400 | (3.599, 5.023) |
5600 | (3.612, 5.01) |
5800 | (3.624, 4.998) |
6000 | (3.636, 4.986) |
よって,99%信頼区間において, データを計5800回程取得しても,標本比率が4.311%だった場合は,設定値が5%でないといえます.