入院患者100人の収縮期血圧を集計した標本Aの分布は、中央値や平均値の近くに測定値が集中していた。他の値より極端に小さい値が1つあり、再度確認したところ誤記入であることが分かったため、この値を除いて標本Bを作った。標本Aに比べ標本Bの方が大きい統計量はどれか。
- 分散
- 最大値
- 最頻値
- 平均値
- 標準偏差
解答解説
正解は4. 平均値です。
解説
極端に小さい値(外れ値)が平均値に与える影響を考慮します。
- 平均値
平均値は全てのデータを合計してデータ数で割るため、外れ値の影響を強く受けます。この場合、標本Aでは極端に小さい値が含まれるため、平均値が本来の値より小さくなります。一方、外れ値を除いた標本Bでは平均値が外れ値による影響を受けないため、標本Aより大きくなります。したがって、正解は平均値です。
その他の選択肢
- 分散
分散はデータの散らばり具合を示す指標で、外れ値の影響を大きく受けます。外れ値を除いた標本Bの方がデータのばらつきが小さくなるため、標本Bの分散は標本Aよりも小さくなります。不正解です。 - 最大値
問題文では極端に小さい値が外れ値であり、最大値については変化がないと考えられます。標本AとBで最大値は変わりません。不正解です。 - 最頻値
最頻値はデータの中で最も頻繁に出現する値であり、外れ値の影響はありません。標本AとBで最頻値は変化しません。不正解です。 - 標準偏差
標準偏差も分散と同様にデータの散らばりを示す指標であり、外れ値を除くことでデータのばらつきが小さくなるため、標本Bの標準偏差は標本Aよりも小さくなります。不正解です。
ワンポイントアドバイス
外れ値が含まれる場合、平均値は外れ値の影響を大きく受けるが、中央値や最頻値は影響を受けにくいことを押さえておきましょう。また、分散や標準偏差は外れ値に敏感であり、外れ値を除くと一般的に小さくなる点も重要です。このような統計量の特性を試験対策として覚えておきましょう。