■χ2検定の制約

2006.05.17. 作成



  ふと気づいたのですが,最近の統計の本にはあまり書かれていないけれど,χ2検定には,期待度数に関して制約があります。χ2分布は,期待度数が小さすぎると近似がよくないからで,あまり小さな期待度数を含む表を検定にかけると,ヘンな結果を出してしまうのです。

  実際どのくらいの期待度数が必要かですが,私がむかし学んだ基準は下記の通りです。この基準は比較的“保守的”な基準だそうで,もう少し緩やかな基準を提出している人もいましたが,まあ慎重に分析するにこしたことはないので,この基準をここにも書き留めておきます。

  1. すべてのセルの期待度数が1以上であること
  2. 期待度数5未満のセルが,全体の20%未満であること

  下の例を見てみましょう。上段が実測した度数,下段が期待度数です。

   条件W 条件X 条件Y 条件Z
A群 3
1.6
25
34.0
20
14.7
40
37.7
B群 0
1.4
40
31.0
8
13.3
32
34.3
   χ2(3)= 12.139, p<.01

と,1%水準で有意になります。

  ついでに残差分析の表を見てみましょう。
   条件W 条件X 条件Y 条件Z
A群 1.67 + -2.87 ** 2.21 * .71 ns
B群 -1.67 + 2.87 ** -2.21 * -.71 ns

ということで,条件Wも,有意ではないものの10%の有意傾向が出ています。期待度数と比べて1.5人程度の差しかないのに,です。

  上の例の場合,2×4の分割表ですから,セルの数は全部で8。期待度数1未満のセルはとりあえずありませんが,5未満のセルは条件Wの2つのセルが該当します。8×0.2=1.6ですから,2つのセルが5未満という状況は,基準を超えてしまっているので,χ2検定を用いるのは望ましくない,ということになります。

  では,このような場合どうしたらいいかというと,期待度数の小さいセルを含む行あるいは列(上の例では条件Wの列)を分析から除外するか,もし意味的に問題なければ,他の行・列に併合して,期待度数の小さなセルを減らします。