Mail News Archives
 検索
   
SQC(統計とビッグデータ)
SQC

サンプリング<2018年03月20日>

 データを分析する方法に焦点が当てられがちですが、分析するデータを正しく取得していないと、結論を間違えることがあります。分析に耐えうるデータを得るためには、分析対象を正しく選ぶためのサンプリング技法について理解することも重要です。
 

●サンプリングとは

 統計的な考え方をする上では、母集団を意識することがとても大切です。母集団とは、調べる対象の全体を指します。選挙のように、調べたいものすべてを調べることが可能な場合には、全部を調べることで対象を把握することができます。一方で、コストの制約や、測定するとその製品を顧客に提供できない場合などは、全体を調べるわけにはいきません。そこで、一部を取り出して調査対象を限定し、そこから得られた情報を全体に当てはまると考えて、推論することがあります。このとき、調査対象を正しく選ばなければ、全体に対する結論を誤ってしまいます。この選ばれた対象をサンプルとよび、これを正しく選ぶためには、適切なサンプリングの方法を決める必要があります。
 母集団を正しく代表するサンプリングの効率的な方法がわかっていることは一般的ではないので、確率的な方法論の助けを借りてサンプルを選び出すことになります。これをランダムサンプリングと呼び、母集団に含まれているもの(これを要素ということがあります)がすべて等しい確率でサンプルとして選ばれます。母集団の全てを調べていないのですから、そこからわかることは確実ではありません。しかし、ランダムサンプリングによって得たサンプルに基づいて、推定(過去のコラム
「検定と推定 -SQCの基本ツールを押さえよう-」 を参照してください)をすると、その不確かさを定量的に把握することができます。すなわち、どの程度外れるかを把握した上で意思決定をすることができるようになります。
 ここまで、ランダムサンプリングが便利な方法であることを述べました。一方で、現場でランダムにサンプルをとることは容易ではありません。ランダムにサンプルを選ぶためには、適当にサンプルを選んではいけないからです。誤解されやすいのですが、ここでのランダムとは、一般的によく使われる手当たり次第という意味ではありません。先にも述べたように、全ての要素が等しい確率でサンプルとして選ばれることが必要です。これを忠実に実施するには、その方法を定めて、サンプリングに関わる方全員の共通理解を得る必要があります。

 

●具体的なサンプリングの方法について

 「ランダムとは、手当たり次第とは異なる」ということを述べましたが、具体的にはどのようにしてランダムサンプリングをすればよいのでしょうか。ここでは、以下の方法について簡単に述べたいと思います。 順に並んだ製品を一定間隔ごとにサンプリングする方法のことを指します。製造中に1時間ごとにサンプリングするとか、50個に1個選ぶなどと決めることによって、実施が簡単になり、間違いにくくなります。ただし、50個製造したら1個選ぶと決めた場合には、最初にどの要素をサンプルとするか決めたあとには、それ以降のどの要素がサンプルとなるかは決められてしまうので、最初の1つをランダムに決定する必要があります。また、母集団の変化の周期とサンプリングの間隔が一致した場合には、母集団の正しい姿をとらえられなくなってしまうという問題もあります。
 

●サンプリング法を設計する

 母集団に関する情報を得るために使えるコストは限られていますから、できるだけ必要最小限のサンプルで、よい方法によってサンプルを収集したいものです。サンプリング法の設計とは、ばらつきとかたよりを問題のないレベル以下に抑えるとともに、コストを押さえるといった要件を満たすために、サンプリング法をどれにするかとサンプルの大きさをいくつかにするかを決めることです。とくに精度については、本当にそのような高い精度を求める必要があるのか?について考えてみるとよいでしょう。
 ここでのコストは、サンプルの費用や測定の費用だけではなく、そのようなサンプルを選ぶための手間や、測定によって得られたデータを解析する際の時間なども考慮にいれてて計算する必要があります。

 

●技術的な課題について

 石炭や砂など粉や塊のもの、石油などの液体、さらには線材など線状のものについては、これらの手法を用いてデータを処理する前に、サンプルをどのようにして取るかといった技術的な課題が存在します。
 たとえば、お風呂の湯加減は、よくかぎ混ぜてからでなければ、全体の温度がわかりません。流体の場合には、このように混ぜて均一にする技術があれば、サンプルを決めることができます。基本的には移動中にサンプルをとるとよいとされています。固体については、混ぜることが困難であることが多く、さまざまな技術的な工夫によってサンプルを決める方法が存在しています。

 

●おわりに

母集団の情報を得るためには、正しくデータを分析する必要がありますが、データ自体も母集団を代表するように選ばれたサンプルに基づく必要があります。本稿で述べたようなコストと精度のバランスのよい方法に基づいてデータを取得してください。

関連セミナー
 
戻る
Profile

       佐野 雅隆 氏
    (さの まさたか)
2009年 早稲田大学創造理工学研究科経営システム工学専攻(博士課程)。
2010年 早稲田大学助手、博士(工学)取得を経て2012年東京理科大学助教。
2016年より、千葉工業大学。

関連記事
 
〈お問い合わせ先〉一般財団法人 日本科学技術連盟 品質経営研修センター 研修運営グループ
〒166-0003 東京都杉並区高円寺南1-2-1 / TEL:03-5378-1213
Copyright © 2015 Union of Japanese Scientists and Engineers. All rights Reserved.