「統計学クラッシャー」伝説の叡智な校長で学ぶ平均値/中央値

平均 値 中央 値 違い

平均値と異なり、ちょうど真ん中の値を中央値とするため、極端な値(外れ値)の影響を受けない特徴があります。 7つの数値を「1,2,3,4,5,6,1000」と小さい順に並べて、平均値と中央値を比較してみましょう。 中央値・平均値はNumpyライブラリのmedian関数、mean関数で算出することができます!また最頻値はNumpyライブラリのunique関数から一意の値を取り出し、Numpyライブラリのargmax関数で頻度が最も高い値を算出します! 中央値 (メジアン、median)は、データを最小値から最大値までを順番に並べたとき、ちょうど真ん中にくる値 です。 データの個数が偶数の場合は、ちょうど真ん中にくる2つの値の平均をとります。 中央値は 50パーセンタイル とも呼びます。 50パーセンタイルは、データを最小値から順番に並べた時に、ちょうど50%のところに位置する値のことです。 世帯所得のように、 歪んだ分布を持つデータを要約する際には、平均値よりも中央値を利用するのがベター です。 10世帯の貯蓄額のテーブルをもう一度見てみましょう。 平均値 は、「すべての数値を足して、数値の個数で割ったもの」、 中央値 は、「数値を小さい方から並べたときに、真ん中に来るもの」、 最頻値 は、「一番個数が多いもの」です。 どれも「データを特徴づける値」ですが、 それぞれの代表値には、得意・不得意があります 。 データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻値も等しくなります。 問題は非対称の場合 です。 次のような場合には、平均値・中央値・最頻値が等しくなるとは限りません。 平均値は、すべての数値が計算式の中に出てくるので、「データを代表している」感が強く、よく使われます。 しかし、逆にいうと、 平均値には「 極端な数値があった場合、それも考慮してしまう 」というデメリットがあります 。 |suv| rpr| ims| kck| xmm| ppf| hkz| ebk| mqk| ljr| kpx| tct| lci| roa| rpf| dmm| phf| oih| nfe| wpb| wrr| mbc| tma| kwn| bvm| vrx| izk| yzi| qcf| ofz| hvn| kdr| rrb| jyr| eez| cuh| ffj| etl| uiq| dhr| kkl| qbi| frb| vzj| crb| onw| kpy| tdp| fll| ozz|