第2回では不人気ナンバーとして、日付に読めない数字をあげました。
しかし、日付に読めない数字というのは1,000通りのうち627通りもあり、もう少し絞りたい気がします。
そこで、今回は同じ数字を2度以上使うケース(以下重数)を考えてみました。
第2回では日付不可と日付可について平均賞金以下と平均賞金以上に分けて表にしました。
これを一般に「分割表」といいます。これから検証しようとしている手法のことを「分割表を用いた独立性の検定」といいます。
さて、前回同様まずは000〜999までの数字のうち重数であるものを数えてみました。
結果は非重数が720件、重数が280件(28.0%)でした。
使用する過去のデータも前回と同じとして、早速分割表を作ってみましょう。
非重数 | 重数 | 計 | 重数率 | |
平均賞金を上回るグループ | 22 | 19 | 41 | 46.3% |
平均賞金を下回るグループ | 52 | 7 | 59 | 11.9% |
計 | 74 | 26 | 100 | 26.0% |
平均賞金 | ¥95,162 | ¥130,919 | ¥104,459 |
続いて、カイ自乗検定で検証してみます。
仮説H:重数か非重数かは、賞金とは無関係である。
有意水準0.5%で検定してみます。
統計量Y=Σ(i=1,2)Σ(j=1,2)((Xij-1/100×Xi.×X.j)2/((1/100)×Xi.×X.j)
=(22-1/100×41×74)2/((1/100)×41×74)
+(19-1/100×41×26)2/((1/100)×41×26)
+(52-1/100×59×74)2/((1/100)×59×74)
+(7-1/100×59×26)2/((1/100)×59×26)
=14.9448
よって
Y=14.9448>カイ自乗(1;0.5%)=7.879
となり、仮説Hは棄却された。
前回同様有意性が認められました。
です。
さて、ここまでで日付不可と重数という2つの選択基準を得ることができましたので、せっかくですからその両方を満たす数字について考えてみましょう。
日付不可が627件、重数は280件ありました。
日付不可かつ重数は数えてみると207件でした。念のため例を挙げれば
などです。
過去のデータを同様にしてみてみると下の表のとおりとなります。
右以外 | 日付不可 かつ重数 | 計 | 日付不可かつ重数率 | |
平均賞金を上回るグループ | 25 | 16 | 41 | 39.0% |
平均賞金を下回るグループ | 55 | 4 | 59 | 6.8% |
計 | 80 | 20 | 100 | 20.0% |
平均賞金 | ¥94,990 | ¥142,335 | ¥104,459 |
もう検証はしません。
まだ207件もありますので絞り込んだという実感はわきませんが、ただ何となく買うのと比べれば、獲得賞金で1.5倍も違うのです。しかもしつこいようですがどの数字も確率は同じ...
さて、これで第4回の内容は終わりです。
第5回はいつのことになるやら...