2006.05.17. 作成
ふと気づいたのですが,最近の統計の本にはあまり書かれていないけれど,χ2検定には,期待度数に関して制約があります。χ2分布は,期待度数が小さすぎると近似がよくないからで,あまり小さな期待度数を含む表を検定にかけると,ヘンな結果を出してしまうのです。
実際どのくらいの期待度数が必要かですが,私がむかし学んだ基準は下記の通りです。この基準は比較的“保守的”な基準だそうで,もう少し緩やかな基準を提出している人もいましたが,まあ慎重に分析するにこしたことはないので,この基準をここにも書き留めておきます。
下の例を見てみましょう。上段が実測した度数,下段が期待度数です。
条件W | 条件X | 条件Y | 条件Z | |
---|---|---|---|---|
A群 | 3 1.6 |
25 34.0 |
20 14.7 |
40 37.7 |
B群 | 0 1.4 |
40 31.0 |
8 13.3 |
32 34.3 |
条件W | 条件X | 条件Y | 条件Z | |
---|---|---|---|---|
A群 | 1.67 + | -2.87 ** | 2.21 * | .71 ns |
B群 | -1.67 + | 2.87 ** | -2.21 * | -.71 ns |
ということで,条件Wも,有意ではないものの10%の有意傾向が出ています。期待度数と比べて1.5人程度の差しかないのに,です。
上の例の場合,2×4の分割表ですから,セルの数は全部で8。期待度数1未満のセルはとりあえずありませんが,5未満のセルは条件Wの2つのセルが該当します。8×0.2=1.6ですから,2つのセルが5未満という状況は,基準を超えてしまっているので,χ2検定を用いるのは望ましくない,ということになります。
では,このような場合どうしたらいいかというと,期待度数の小さいセルを含む行あるいは列(上の例では条件Wの列)を分析から除外するか,もし意味的に問題なければ,他の行・列に併合して,期待度数の小さなセルを減らします。