Mail News Archives

SQC

「ビッグデータ時代のデータリテラシー1日コース」が目指す未来＜2020年03月31日＞

IT系、製造系、マーケティング関連、販売流通業……幅広い分野で近年「データサイエンス」「機械学習」の活きた知識が求められています。これらの知識を、私共のセミナーを受講することで習得したいと期待する声は日を重ねるごとに増えています。何故、データサイエンスや機械学習が今こんなにも求められているのでしょうか。

■「データ」の変貌

受講者の方から寄せられる現場の声には、昨今のデータの巨大化へのジレンマが散見されます。
『商品の販売』という例を挙げて説明すると、従来の『販売』におけるデータというと、曜日・天候・店舗の所在地といった、売上集計ベースのデータがメインでした。データが何かしらの条件と紐づけられた「系のデータ」です。
これを利用し、「どの曜日に販促のしかけをするか」や「店舗のロケーションに基づく品ぞろえの差別化」など、機会損失の最小化を目指した販売戦略を組みますが、これは言ってしまえば「守りの姿勢」でありました。

しかしながら今では、ポイントカードやアプリ、ネットショッピングなどの普及により、より細分化したデータが簡単かつ自動的に手に入るようになりました。年代、性別、職業、家族構成といった分類から、個人で良く来店する曜日など、ターゲットをより明確化する「個のデータ」が面白いように手に入ります。
これにより、顧客の好みを絞ったクーポンの発行や告知など効率よく売上を見込める「攻めの姿勢」に転じることができます。

■必要とされる「データドリブン分析」

こうして、データはまさに「ビッグデータ」へと変貌を遂げました。

このデータ自体の性質が変貌した状況下において、古典的SQC手法でアプローチしても破綻してしまうという状況が生まれました。例えば、古典的SQC手法の一つである仮説検定も破綻してしまいます。

仮説検定では、検定統計量を左の数式で算出します。サンプルサイズnが膨大（ビッグデータ）になるに伴い、t₀の値も非常に大きくなり、高い検出力を持つようになります。そのため、母平均μとμ₀との差が微小であっても「有意差あり」との解析結果が出てしまい、誤った仮説を採択する恐れが大きいです。

古典的統計手法の破綻に対して、どのような対処策があるでしょうか。対処策となるのが「データドリブン分析」です。古典的SQC手法では，理論や仮説が先行し，観測値の出現する確率が理論や仮説に沿っているかを調べていきます（イベントドリブン分析）。一方，データドリブン分析では，観測データは正しいものとし，この前提下でどんなモデルが成立するのか，確率を見て判断します。

けれども、データドリブン分析には、データの理解・データの準備が今まで以上に重要視されます。
正確なデータリテラシー（読み書き能力：目の前のデータを読み取り、次の分析アクションにつなげていく能力）の力を大いに奮い、データを活用することを目指して欲しいのです。そのために、日科技連は「ビッグデータ時代のデータリテラシー1日コース」を開講しました。

データ分析プロジェクトを進めるためのフレームワークであるCRISP-DM(CRoss-Industry Standard Process for Data Mining)における「データの理解(Data Understanding)」「データの準備(Data Preparation)」の段階に焦点を絞り、データ観察テクニックを伝授します。