1.ビジネスデータ把握力【Excel統計学】

常駐先でExcel分析が必要かと思ったので個人的に勉強を開始しました。
Excelで学ぶ ビジネスデータ分析の基礎(ビジネス統計スペシャリスト・Excel統計ベーシック)』を読み、分析したことをまとめていきます。

実際にExcel統計をおこなった

章が3つに分かれていたので記事も3つに分けて紹介します。

  1. ビジネスデータ把握力
  2. ビジネス課題発見力
  3. ビジネス仮説検証力

ビジネスデータ把握力では平均、中央値、最頻値、レンジ、標準偏差という基礎を集計しました。

ビジネスデータ把握力

分析する基礎的な手法を紹介します。基本的なことだったので知っている方は「当たり前」と思うかもしれませんが必要なことがあるので一応記載しております。

平均値

=AVERAGE(B3:B9)
数値やデータ、量などを並べた場合、中間に位置する数値のこと。 似た言葉としては「中央値」が挙げられるが、中央値の場合、数値を小さい順番に並べ、中央に位置する値を意味する。

中央値

=MEDIAN(E3:E18)
中央値とは、数値で構成された複数のデータを小さい順番に並べた時に、真ん中に位置する値のことである。

最頻値

=MODE.SNGL(J3:J8)
統計資料の度数分布で、度数が最も多く現れる値。

※平均と中央値、最頻値の考え方の違いはこんな感じ。

営業車20台の使用年数を集計した表があります。ここでただ単に平均だけ確認すると7.3年使用年数がたっているということで少し経年劣化しているかもしれないという懸念が浮かび、もしかしたら何年後かに一気に買い替えの時期を検討しなくてはならないのかも、と思ってしまうかもしれません。しかし、最頻値で確認するとまだ2年しかたっていない社用車が多いということになります。グラフで確認してみると4~7年間が抜けており、買い替えるのであれば古い10年以上使用年数の経過している10台だけでもいいのではないか、という話になるでしょう。

これは社用車の話だったのでそこまで自分に関係がないと思うかもしれません。ただ、日本の平均年収などを集計した記事を読んでみると億を稼いでいるような平均年収のかたが外れ値となり、日本の平均年収をあげてしまっているというようなことが起こります。分析を行う際には平均、中央値、最頻値(以外も必要ですが!)を満遍なく確認することが必要となるでしょう。

レンジ(範囲)

最大値=max(R3:R14)
最小値=min(R3:R14)
範囲とは、その言葉通りデータの範囲を示すもので、データの最小値と最大値の差のことです。範囲はレンジともいいます。

標準偏差

標準偏差とはデータの特徴を要約する基本統計量の一つで、「データが平均値の周辺でどれくらいばらついているか」を表します。標準偏差は対象データの値と平均との間にある差を2乗したものを合計した上で、データの総数で割った正の平方根から求められます。

標準偏差はそのままSQRT関数を使用しても集計ができません。そのため、以下の手順で求めるということを理解してください。

標準偏差の求め方

  1. 平均値を求める
  2. 偏差(数値 - 平均値)を求める
  3. 分散(偏差の二乗平均)を求める
  4. 分散の正の平方根を計算する

=AVERAGE(X3:X14)
=STDEV.S(X3:X14)/=STDEV.P(X3:X14)
分散=AVERAGE(Z3:Z14)
標準偏差=SQRT(X17)

まとめ

今回は、分析の初歩の初歩を行ってみました。ただ、これが土台となるので基礎を理解した上で分析業務をおこなってくださいね。