■質問紙の項目分析

2009.03.13.　作成

劣化する基準

　ゼミの中では繰り返し言っていることなので，ここでとりたてて書く必要もないのですが，どうも最近よそのゼミの修論にヘンな傾向が目立ってきているので，よけいなお世話ではありますが，ここに書いておきます。それは，なぜか統計的分析の基準が年々ユルく，甘くなっているということです。しかもなにやらみんな横並びに同じヘンな基準を採用しているというのが，ちょいと気持ち悪い。

　　前例は継承されます。良いか悪いかの判断なしに，いわばデフォルト値として受け継がれます。それが伝統っていうものでしょう。その中で，まただれかがちょっとだけ，１ヵ所だけ基準をユルくしたら，それもまた確実に受け継がれ…，結果，論文はどんどん劣化していくばかりです。

　　ですから，ひとりひとりがちゃんと自覚的に基準を考えていく必要があるのです。というわけで，まったくよけいなおせっかいではありますが，やはりここで書いておきましょう。

その１．

　　質問紙の項目分析をしているときに，天井効果がみられる項目が４つも５つもあるのに，「概念的に必要な項目だから」という理由で，いともあっさりと，すべての項目を採用してしまう論文。

　　しかも，複数の尺度について分析を繰り返し，そのたびに「必要な項目だから」と必ず全部残してしまうようなのは，ほんとうにちゃんと吟味したのか，疑わしいところだと思います。

　　かと思えば，すぐその後に行う因子分析では，負荷量が基準に達しないからといって，先ほどせっかくがんばって残した項目を，今度はいともあっさりと捨ててしまうのだから不思議です。それほど必要な項目だったのなら，こちらも必要性を主張してもよさそうなものなのに，なぜか因子分析で基準からはずれた項目を残すと宣言した修論には，出あったことがありません。一貫していないではありませんか。

その２．

　　因子分析を使った項目選択で，なぜか負荷量の基準を.35などという相当ビミョ～な数値に設定する論文を，ときどき目にするようになりました。

　　たしかに古い研究は基準が甘くて，私もはじめのうちは.30を基準にして項目を選択していましたから，大きなことはいえないのですが，いちおうギョーカイとしても様々な経験を積み重ねる中で，だんだんと厳しい基準が採用されるようになってきています（統計に関しては，研究が進むに従って基準が厳しくなるのが一般的ですね）。.35なんて基準，かなりマイナーで，先行研究ではめったにお目にかかれないように思うのですが，なぜわざわざそんな中途半端な基準を採用するのか，理解に苦しみます。

そしてその３．

　　そうやって甘い基準を積み重ねて残された項目のことですから，当然尺度としてのまとまりはけっしてよくありません。それは，α係数が.5とか.6とかという結果になって表面化するわけですが，にもかかわらず，どういうわけだか，そんな低い値でも信頼性・内部一貫性が十分だと言い張る論文…。いやほんと，ここまで一貫して“あまあま”な基準で考えてきたら，当初の予想が支持された，なんて言われてもちっと信用できません。何のための統計解析なのか，わけがわからなくなってきます。

　　いったいいつから，こんなに甘い基準が流通してしまっているのでしょうか？

天井効果・床効果はなぜ問題か

　　たとえば，著名な先生の講演会があると聞き，高いチケットを手に入れて聴講したら，どうしようもなくつまらなかったとしましょう。「金返せ！」と叫びたくなるくらいの最悪の講演。もし，最後のアンケートで，「大変満足」…(7)，「かなり満足」…(6)，「まあ満足」…(5)，「どちらでもない」…(4)，「やや不満」…(3)，「かなり不満」…(2)，「大変不満」…(1)の７段階で評価せよといわれたら，平均が２前後になるような，そんなひどさです。

　　しかし，主催者が講師に配慮したのか，アンケートは「大変満足」…(4)，「かなり満足」…(3)，「まあ満足」…(2)，「不満」…(1)の４段階。

　　するとどうなるでしょう。「金返せ」の人もちょっとは収穫があった人も，とにかく不満の方が強い人は，(1)しか選びようがないので，ここに回答が集中しますよね。これが天井効果（床効果）です。みんな選びたくて(1)を選んだわけじゃない，というところが重要なところです。もっと不満の度合いを細かく段階分けして聞けば，きっとなだらかな正規分布曲線を描けたはずなのに，それをしなかった。つまりこの尺度は，本来受講者集団が持っている回答の分布をきちんと測定できていないのです。

　　ちょうど，自然に積み上がった砂山がきれいな山型を描いているのに，それを片側からブルドーザでグイグイ押していったようなものです。押し縮められた側は，きれいな裾野の曲線が消えて切り立った崖になり，押された砂が砂山の頂上をかさ上げしている，というイメージが，容易に浮かび上がってくるでしょう。統計解析は，それぞれの山を正規分布しているものとして，平均値とＳＤからその山のかたちを再現しますから，ブルドーザで押し縮めた山は，やけに切り立った，しかも頂上の位置がズレた山として扱ってしまうのです。人工的にかたちが歪められているなんて，読者は知りませんから，誤解を生む元になるわけです。

　　もう一つ。心理尺度というのは，極端に言えばある特徴を持っている人と持っていない人とを選り分けるのが目的なので，回答の個人差を最大限に引き出すような項目の構成が望まれることになります。つまり，質問に対する回答が肯定・否定両方向に分かれ，たとえば５段階尺度だったら１～５のすべての選択肢を選んだ人がいる，というのが望ましいわけです。１と２しか選ばれていなくて，そのうち95％の人が１だった，などという項目は，相当極端な人を見分ける（臨床尺度のように）にはいいかも知れませんが，一般的な個人差を調べる上では，あまり有効ではありません。統計的分析の中でも，その項目の貢献度は低くなってしまいます。

　　この項目にはそういう問題がありますよ，というのが天井効果です。

　　おわかりでしょうか。天井効果が指摘しているのは，その項目が概念的に使えないということではありません。測定のしかたがおかしいと言っているのです。元々の反応分布を適切に反映させるように，「質問項目の文章を見直してみろ」と言っているのです。たとえば，「今までの人生の中で，私は嘘をついたことがある」と聞くのと，「私はよく嘘をついている」と聞くのでは，同じ５段階でも，回答の分布がかなり違ってきますよね。

　　ですから，天井効果が出たことに対して，「概念的に必要な項目だから残す」という判断をするのは，厳密にいえば，ちょっととんちんかんな反論なのです。必要な項目なら，項目の文章をもう一度練り直し，もう一度データを取り直せばいいわけですから。本来質問紙というのは，そうやって何度もパイロット研究を重ねて項目を練り上げていくものです。それにそもそも，質問紙を作った段階で「必要な項目」だから入れているわけで，今さらそんなことを言っていたら，落とせる項目などありません。

　　とはいえ，期限のある修論でそんなていねいな準備をするのは非現実的なのも事実で，だから「概念的に必要な項目だから残す」という判断を一概に否定するつもりはありません。問題は，そういう天井効果の性質をちゃんと知った上で，ほんとうにしっかり考えて，残すと判断したのですか？　ということです。何も考えないでコピーアンドペーストしたにちがいない，天井効果は見られたが必要だから全部残す，という文章を繰り返し見せられると，疑いたくもなるのです。

　　ちなみに私自身は，天井効果が見られたから即その項目を落とすということはしていません。その後のいろいろな項目分析の指標で問題のある数値が出てきたら，そのときにその項目を優先的に落とすようにしています。ただし，尺度（因子）全体の項目数が少ないにもかかわらず，多くの項目で天井効果が見られているような場合は，尺度（因子）全体を分析から除外せざるをえません。

因子分析の負荷量の基準は？

　　因子分析といえば，昔はVarimax回転（直交回転）が主流でしたが（みんなそれしか知らなかったから，というのもたぶんある），最近はPromax回転（斜交回転）がだいぶ用いられるようになってきました。そもそも直交するという前提に無理があって，たいていの要因は多かれ少なかれ相関しているので，これは当然の成り行きといっていいでしょう。とくに，ある概念の下位概念の構造を分析したい，というような場合は，下位概念どうし互いに相関しているはずですので（でなければ，下位概念ではなく別の概念と考えた方がいいかもしれない），斜交回転を用いるのは妥当でしょう。ここまではとくに問題はありません。またその後の分析で，斜交回転した後の因子得点を使うのであれば，まあ問題はないでしょう。

　　問題は，因子分析の結果から，どの項目がどの因子に所属するかを決め，それらの項目への評定の合計得点なり平均得点を用いて，その後の分析を進める場合です。

　　斜交回転をしているわけですから，因子の間には相関があることを想定しています（結果的に相関がない場合も，もちろんありますが）。しかし，単純な合計得点なり平均得点では，その相関は考慮されていませんから，得点同士ひじょうに高い相関を示す場合があります。因子分析というのは，本来相互に独立の因子を見つけ出すための分析方法なのですが，得点化した段階で独立でなくなってしまうのです。第１因子・第２因子それぞれの影響を検討しようとしても，相関が高いために両方の影響が混入してしまう場合が考えられるのです。

　　そこで，因子分析の段階でなるべく因子間の相関を拾わないように工夫することになります。ある１個の因子に対する負荷量が高く，他の因子への負荷量が低い項目を選択するというのは，大きくいえばそのための手続きといえます。それでは，いくつ以上を基準とするのが妥当なのでしょうか。

　　基準を厳しくすればするほど，項目間のまとまりはよくなりますが，少数の，似たりよったりの項目だけで構成されてしまいますので，測定できる内容の幅が狭くなりますし，項目数が少ないぶん，信頼性が低くなっていきます，逆に基準をゆるめれば，概念の内容を幅広く測定できますが，そのぶん他の因子との区別が曖昧になってしまいます。それらを考えて，どのあたりに基準を置くかを決めることになります。

　　分散分析の有意水準のように，明確な基準があるわけではありませんが（これでさえ，学問分野によっては10％が基準だったり，1％が最低だったりしますから，絶対ではないのです），主流は.40あたりでしょう。中には，一つの因子に.50以上で他の因子に.30未満，というように，基準を分けている厳格な研究もあります。直交回転を行った研究ですら.40を基準としているわけですから，相関を仮定している斜交回転で.35などという甘い基準が使われるのは，この後の分析への悪影響を考えると，ちょっとどうかなぁと思うわけです。

α係数の基準は？

　　α係数は，尺度を構成する項目がどの程度まとまりがよいかを示す指標ですが，これもまたいくつ以上が妥当と言っていいかの明確な基準がないため，混乱を招いているようです。中には.5以上が基準などと書いている人もいるようですが，この基準はちょっと緩すぎると思います。それは，実際の項目を見てみても，数が少なかったり，内容がバラバラだったりしていてすぐにアヤシイと思いますし，その得点を使った分析をみても，有意差がまったく得られなかったり，ほかの尺度と不一致な結果を出すのは，たいていα係数が低い尺度ですから，実感として緩すぎると思います。

　　ものすごく乱暴なことをいえば，こういうときは相関比とか説明率の考え方を援用すると，少しわかりやすくなるのではないでしょうか。相関係数の２乗が説明率になっているという考え方です。この相関係数のところに，強引にα係数を当てはめ，それを２乗した値が，尺度得点全体の中で共通成分が占める割合を表していると考えてみましょう。

　　すると，α＝.7でようやく共通成分が占める割合が全体の半分を超えます。それより低かったら，想定している成分以外の成分が大きいわけですから，問題がありますね。α＝.8だと説明率60％を超えて，大学の試験でも合格です。ものすごく乱暴な説明ですが，最低でもα＝.7，できるだけα＝.8をめざす，というのが，一般的にもいわれていることですし，妥当な線なのではないでしょうか。

あなたの論文は後輩が受け継ぐ

　　全体を通して，この手の分析が面倒くさいのは，結論を下すための絶対的な基準がなく，数値の取り扱いが研究者に委ねられている，というところにあります。だからこそ，それぞれの数値が何を意味しているかをちゃんと考えながら判断していかないと，せっかくのデータをかえって無駄にしてしまうことになるのです。

　　すでに先行研究の中で他の研究者が採用している基準だからといって，望ましい結論を導くために，どんどん甘い基準を採用していったら，研究の結論が大きく歪んでしまいます。そうした歪みに気がつかない後輩が，また同じように，あなたが使っているからといって，その甘い基準を使って論文を書いたら，ますますひどいことになります。影響が及ぶのは，あなただけではないのです。

以上