基本統計量

基本統計量(Basic statistics)

 

スポンサーリンク

アフィリエイト広告を利用しています。

1. 基本統計量

母集団の平均を母平均と呼び、通常\( \mu \)(ミュー)で示します。さらに母集団のばらつきの程度を母分散といい\( \sigma ^2 \)(シグマの2乗)、母分散の平方根である母標準偏差を\( \sigma \)(シグマ)と表します。これら母集団の性質をあらわすものを母数といいます。

これに対して、母数を推定するために母集団からランダムにサンプリングしたデータに基づいて計算する量を統計量といいます。

 

1.1 サンプルデータ

データとして、油圧ポンプの内蔵リリーフ弁に使用するばねについて、納入品から15個サンプリングして、ばね定数試験機でばね定数のばらつきを測定した結果を表1に示します。これに基づいて各種統計量を求めていきましょう。

表1リリーフ弁ばね定数のサンプルデータ   ORIGINAL

 

1.2 母平均を推測するための統計量

(1)平均 \( \bar{ x } \) (average:相加平均、単純平均、算術平均、代数平均)

サンプリングされたデータの平均値をいいます。
n個のデータ(測定値)\( x_{ 1 },x_{ 2 }, … ,x_{ n } \) とすると次式で求められます。

\( \bar{ x } = \displaystyle\frac{x_{ 1 } + x_{ 2 } +\cdots + x_{ n } }{ n } = \displaystyle\frac{ \displaystyle \sum_{i=1}^n a_i}{ n } \)

\( \Sigma \)∑などの数学記号の意味は、別のコンテンツをググってください。

平均の有効桁数は、サンプルデータの精度と同じにします。

サンプルのデータについて計算しましょう。

\( \bar{ x } = 21.65 \)

 

(2)中央値 \( \tilde{ x } \) (median:メジアン、中央値)

サンプルデータを、順番に並べて真ん中にくる値のこと。JIS Z8101 に示される定義です。

中央値:観測値を大きさの順に並べたとき、ちょうどその中央に当たる一つの値(観測値の個数

が奇数個の場合)、又は中央の二つの値の算術平均(測定値の個数が偶数個の場合)。

サンプルデータについて、表2に示します。

\( \tilde{x } = 21.61 \)

表2 中央値の計算結果   ORIGINAL

 

(3)モード(mode:最頻値、最多値)

データの中で最も頻度よく表れる値をいいます。度数分布図においては最も高い階級の値になります。一つとは限りません。

サンプルデータについては、表3に示すように21.21 N/mm になります。

表3 モード   ORIGINAL

 

1.3 ばらつきを推測するための統計量

(1)範囲 \( R ,R(x) \) (range)

データのうち、最大値\( x_{max} \)xmaxと最小値\( x_{min} \)との差をいいます。JIS Z8101に示される定義は以下のとおりです。

範囲:計量的な観測値の最大値と最小値との差

サンプルデータについては、

\( R = 22.33 ( x_{max} ) – 21.18( x_{min} )) = 1.15 \)

 

(2)偏差(deviation)

サンプルの各データと平均との差をいいます。

サンプルデータについては、表4のようになります。

表4 偏差結果   ORIGINAL

 

(3)偏差平方和 \( S,S(x),S_{xx} \) (deviation square sum)

データのばらつきの程度を数値的にまとめるには、最初に、個々のデータが平均値からどれだけ離れているかを考えます。いまn個のデータ\( x_{ 1 },x_{ 2 }, … ,x_{ n } \) があるときに、これらのデータの平均値\( \bar{ x } \) を求めます。次に,各データと平均値との差を求めます。

\( x_1 – \bar{x} , x_2 = \bar{x} , \cdots , x_n – \bar{x} \)

これら各データと平均値との差を「偏差」というのは前の項で示しました。データがn個あれば、偏差も n個求められます。n個の偏差の値は一つひとつ違っており、基本的には同じ値にはならないので、偏差全体の大きさを考えることにします。そのために、単純に偏差の合計値を求めると、偏差の値が相殺されて0になってしまい、ばらつきの尺度としては、使えません。

そこで、各々の偏差をそれぞれ2乗してから合計するようにします。

\( S = (x_1 – \bar{x})^2 + (x_2 = \bar{x})^2 + \cdots , (x_n – \bar{x})^2 \)

\( \ \ \ \ = \displaystyle \sum_{i=1}^n ( x_i – \bar{ x })^2 = \displaystyle \sum_{i=1}^n {x_i}^2  – \displaystyle\frac{ \left (\displaystyle \sum_{i=1}^n x_i \right)^2 }{ n } = \displaystyle \sum_{i=1}^n {x_i}^2  –  n \bar{ x }^2 \)

このようにして得られた値のことを、偏差平方和といいます。偏差平方和は通常\( S \)で表されます。

サンプルデータに対して、表5のように \( S = 1.5605 \) となります。

表5 偏差平方和   ORIGINAL

 

(4)分散 \( V \) (variance:不偏分散、平均平方)

平均からのばらつきの程度を見る指標。偏差と標本数から算出します。\( V \)と表記します。

JIS Z8101 に示される定義です。

不偏分散:各観測値の平均値からの偏差の二乗の和を観測個数(標本数)から1を引いた値(自由度)で割ったバラツキの尺度。

\( V = \displaystyle\frac{ S }{ n-1 } \)

サンプルデータの場合、

\( V = \displaystyle\frac{ 1.5605 }{ 15 – 1 } = 0.1115 \)

 

(5)標準偏差 \( s,s(x) \) (standard deviation)

標準偏差は、分散の平方根になります。これにより、データと同じ次元(単位)になります。

\( s = \sqrt{ V } = \displaystyle\sqrt\frac{ S }{ n – 1 } \)

標準偏差の精度は、通常は有効数字を最大3桁に取ります。

サンプルデータの場合、

\( s = \sqrt{ 0.1115 } = 0.334 \)

 

(6)変動係数 \( CV,CV(x) \) (coefficient of variation)

単位が同じであっても、\( 5g \) の製品質量を測定するときのばらつきと、\( 50kg \)の製品質量を測定するときのばらつきを、標準偏差で比較することには意味がありません。また、人の体重のばらつきと身長のばらつきとを比較して、どちらのばらつきが大きいかを議論する際に、標準偏差は用いることは出来ません。

このように、平均値が大きく異なるもの同士、単位が異なるもの同士のばらつきの比較する場合、変動係数の概念を用います。変動係数は、\( CV \) という記号で示され、標準偏差を平均値で割ることで求められます。変動係数は、100倍してパーセント( % ) 表示することが多いです。

\( CV = \displaystyle\frac{ s }{ \bar{ x } } \times 100 = \displaystyle\frac{ \sqrt{ V }}{bar{ x }} \times 100  (%) \)

 

2. 母集団の母数とサンプルの統計量との記号表記の違い

母集団に対する母数とサンプルに対する統計量について、呼び方と記号表記との違いについて表6 に示します。

表6 母数と統計量の記号  よくわかる2級QC検定合格テキスト

 

3. いろいろな平均値の表し方

1.2項に単純平均について定義していますが、平均の求め方はいろいろありますので、代表的なものも示します。

 

(1)幾何平均(geometric mean:相乗平均)

n個の正の数\( a_{ 1 },a_{ 2 }, … ,a_{ n } \)の幾何平均は、次式で求められます。

\( \left( \displaystyle \prod_{i=0}^n a_i \right)^\frac{ 1 }{ n } = \sqrt[ n ]{ a_{ 1 }a_{ 2 } … a_{ n } } \)

幾何平均は正の数のみしか扱えません。また、単純平均と幾何平均との違いは、二つの正数の大きさの差が大きい場合に顕著です。例えば、10 000と1との平均を求めます。

単純平均: \( \displaystyle\frac{ 10\ 000 + 1 }{ 2 } = 5 000.5 \)

相乗平均: \( \sqrt{ 10\ 000×1 } = 100 \)

になります。

二つの正数の差が大きい場合、一般的には幾何平均の方が実態を表していますと言えます。

 

(2)調和平均(harmonic mean)

n個の正の数\( x_{ 1 },x_{ 2 }, … ,x_{ n } \)の調和平均は、次式で求められます。

\( H = \displaystyle\frac{ n }{ \frac{ 1 }{ x_1 } + \frac{ 1 }{ x_2 } +\ \cdots\ + \frac{ 1 }{ x_n }} = \displaystyle\frac{ n }{ \displaystyle \sum_{i=1}^n  x_i} = \displaystyle\frac{ n \displaystyle \prod_{j=1}^n x_j}{ \displaystyle \sum_{i=1}^n  \frac{ \displaystyle \prod_{j=1}^n x_j }{ x_i } } \)

調和平均は、正の数のみを扱います。例として挙げられるものとして速度の計算があげられます。A地点とB地点との間を往復する際、行きが速度x、帰りが速度yの場合、往復の平均速度は、xとyとの調和平均になります。この他、抵抗値が異なる2つの抵抗(例えば、xΩとyΩ)が並列に接続された場合、その合成抵抗はxとyとの調和平均に等しい抵抗を並列に接続した場合と同じになります。

 

(3)対数平均(logarithmic mean)

二つの正の数a,bについて、対数平均は次式で定義されます。

\( \displaystyle\frac{ a – b }{ \ln (a) – \ln (b) } \)

伝熱の問題でよく使われます。

 

(4)加重平均(weighted arithmetic mean:重み付け平均)

加重平均とは、データに応じて重みをかけて平均する方法をいいます。n個のゼロでない数\( x_{ 1 },x_{ 2 }, … ,x_{ n } \)、及びそれぞれの重み(正の数)を\( w_{ 1 },w_{ 2 }, … ,w_{ n } \)とすると、加重平均は次式の様になります。

\( \bar{ x } = \displaystyle\frac{ w_1 x_1 + w_2 x_2 +\ \cdots\ + w_n x_n }{ w_1 + w_2 +\ \cdots\ + w_n } = \displaystyle\frac{  \displaystyle \sum_{i=1}^n  w_i x_i }{  \displaystyle \sum_{i=1}^n  w_i }\)

売上や平均年齢など通常の平均を求める方法では、値が偏ってしまう場合に用いられます。

例えば、ケーキ販売店について

この販売実績に基づいて、1日に売れた平均売り上げを求める場合、加重平均を求めます。この場合、重みは1日の販売量になります。ちなみに、Excellでは”SUMPRODUCT関数(加重平均の分子)” を用いることで求めることができます。

\( \bar{ x } = \displaystyle\frac{ 275 \times 65 + 570 \times 117 + 690 \times 97 }{ 65 + 117 +97 } = 543 (円) \)

となります。

 

 

 

参考文献
QC検定2級品質管理の手法50ポイント   内田治  
日科技連よくわかる2級QC検定合格テキスト   福井清輔  弘文社
Wikipedia

 

引用図表
表1 リリーフ弁ばね定数のサンプルデータ   ORIGINAL
表2 中央値の計算結果   ORIGINAL
表3 モード   ORIGINAL
表4 偏差結果   ORIGINAL
表5 偏差平方和   ORIGINAL
表6 母数と統計量の記号  よくわかる2級QC検定合格テキスト

 

ORG:2023/07/17