仕事でデータ分析をすることになったので統計学を学んでみた

統計学

画像タップで拡大し、左右をタップすることでスライドできます。

統計学で何ができるの?

  • 統計学でできることは主に3つ
  • ①データをわかりやすくする。生のデータは数字やテキストが不足に並んでいるものなので、見てもわからない。データをわかりやすくするテクニックが必要
  • ②説明する。自分がデータの内容理解したとしても、それを他の人に伝えるときには違ったテクニックが必要になる。
  • ③予測する。過去のデータから未来を予測することもあれば、膨大なデータをすべて集められない場合に確率論を使う場合もある。

データの性質によってやり方が違う

記述統計学と推測統計学

データ分析は【目的】からはじまる

データ分析においては、目的が非常に重要です。分析対象のデータは、その目的によって異なるため、目的が不明確またはずれていると分析が無駄になる可能性があります。分析対象となるデータの集合を母集団と呼びますが、この母集団には有限と無限の場合が存在します。例えば、現時点での自社ECサイトの顧客を対象とした場合は有限ですが、将来の顧客も含めると母集団は無限に広がります。全数調査とは、分析対象のデータ全てを集めることを指し、この方法では無限母集団に対しては実施が不可能です。全数調査は記述統計を用いてデータを要約することができます(例:男性顧客の平均年齢は40歳)。しかし、全数調査は時間もコストもかかるため、実施が困難な場合は母集団の一部からサンプルを抽出することが一般的です。この抽出方法をサンプリングと呼び、抽出されたサンプルから母集団全体の性質を推測することを標本調査と言います。
  • 目的によって分析対象のデータが異なるため、目的が不明確であったり、ずれたりすると無駄になる
  • 分析対象のデータを母集団という
  • 母集団は有限の場合と無限の場合がある。例えば現時点での自社ECサイトの顧客が対象であれば有限、将来まで含めると無限になる
  • 全数調査は分析対象のデータをすべて集めること。無限母集団はできない。記述統計で要約することが可能(男性顧客の平均年齢は40歳など)
  • 全数調査は時間とコストがかかる。できない場合は母集団の一部からサンプルを抽出(サンプリングという)してサンプルから母集団の性質を調べる(標本調査という)
  • Googleアナリティクスでサンプリングと表示されたものはデータを全件集計せずサンプリングによる推測でレポートを表示している。精度がいまいちだという話を聞くので不安であれば集計期間を短くして全数にした方がよい。

変数

記述統計量

平均

中央値

分散

※σはシグマと読みます

この記事を書いた人
ヒーローかず

ウェブエンジニア・SEOエンジニア・データ分析エンジニア
EC歴15年
東京理科大学卒業後、大手外資系コンサルティング会社でウェブエンジニアとして9年システム開発を行いました。現在ECサイトの販売代行をしている会社でエンジニアとしてプロジェクトマネージメント、サイト機能改善提案、SEO対策、データ分析に携わっています。趣味はゲーム、マンガ、株式投資です。

ヒーローかずをフォローする
統計学
シェアする
タイトルとURLをコピーしました