2016年4月12日火曜日

『これ一冊で完璧! Excelでデータ分析 即戦力講座』

  • 基本
  • ピボットテーブル
  • t検定
  • データ分析の流れ
  • 回帰分析
  • その他
基本
  • 折れ線グラフには平均と標準偏差の補助線を引く。「外れ値」が見やすくなる。
  • 変動係数 = 標準偏差 ÷ 平均
    標準偏差・・・絶対的なばらつき
    変動係数・・・相対的なばらつき  
  • (各値 - 平均) ÷ 標準偏差
    個々の値の平均からのズレが標準偏差の何個分に当たるか
  • 偏差値 = {(各値 - 平均) ÷ 標準偏差} × 10 + 50
ピボットテーブル
  • データを「週末」と「平日」に分け、それぞれの基本統計量を計算する。
    行ラベル = 週末フラグ
    値 = 売上げの合計、平均、標準偏差・・・
t検定
  • 平均の差の検定
  • 2つのグループの平均値の差を比較し、差がある言って良いかを検証すること。
  • Excelの「分析ツール」を使う。(「t検定:分散が等しくないと仮定した2標本による検定」)
  • 「p値(両側)」に着目する。
p値
  • 誤判断リスク
  • 0〜1
  • 0・・・「2つのグループの平均に差がある」という主張が間違っている確率が0%
  • 1・・・「2つのグループの平均に差がある」という主張が間違っている確率が100%
  • 有意水準、有意確率 ・・・許容できるリスク(p値)の上限。
  • 平均の差の検定(t検定)を用いて、週末と平日の売上高の平均の差について、誤判断リスク(p値)を加味して判断することができる。
データ分析の流れ
  • 売上高を増やす = ゴール = 結果系変数
    結果系変数を分解してサブゴールを見つける。
  • 売上高 = 客数 × 客単価
    客数を増やす ← サブゴール
    客単価を増やす ← サブゴール
  • サブゴールをグラフ化(ヒストグラム)する。(ヒストグラムは分析ツールで)
  • ヒストグラムの山が複数あれば、異なる傾向が混ざっている可能性あり。
  • ヒストグラムの描き方
    区間の数 ・・・ √(データの数)
    区間の幅 ・・・ (最大値 - 最小値) ÷ 区間の数
  • サブゴールの基本統計量を比較する。
  • 異なる単位のばらつきを比較するには変動係数を用いる。
  • 結果系(売上高)と原因系(客数、客単価)の散布図をそれぞれ描き、関係を視覚化する。
  • 散布図に直線を引き、傾向を見やすくする。(「近似曲線の追加(線形近似線)」機能を利用)
  • 相関係数で直線傾向を数値化する。
  • 相関係数…2変数の関係がどれくらい直線っぽいかを表す指標。
    = correl(変数1群, 変数2群)
    = -1 〜 +1
  • 異なる結果系にそれぞれの原因系を考える。
    客数 ・・・ 基本、天気、ちらし、キャンペーン、値引き
    客単価 ・・・ POP、かごの配置、値引き
  • まとめ
    1. 結果系の変数を分解する。
    2. 各変数の平均・標準変数・変動係数を調べる。
    3. 各変数と結果との相関を調べる。
  • 分析ツールの「基本統計量」でデータの全体像を把握する。
  • 量的変数と質的変数 ・・・ 質的変数は「0, 1, 2, …」に置き換える。
  • 分析ツールの「相関」で相関係数をマトリックス表示。
  • 散布図 → 近似曲線を追加(線形近似、数式表示ON)
  • 近似曲線の数式(y=ax+b)が分かれば予測ができるようになる。
回帰分析
3つのポイント
  1. 係数:値引きすると売上個数はいくつ増えるのか
  2. p値:どれくらい安心してこの結果を見られるか
  3. 決定係数:価格だけで売上個数をどれくらい説明できるのか
  4. 残差:予想からどれくらい外れているか
係数
  • 「y=ax+b」の傾き「a」と切片「b」のこと。
p値
  • Probability value、有意確率
  • 目安は0.05(5%有意水準)
  • 切片のp値は無視。
決定係数
  • Excelでは「重決定R2」と表記。
  • 「分析に使った原因」で結果の何%の動きを説明できるのかを表す。
残差
  • 予想が外れた理由を調べることにより新たな原因変数を得る。
原因を複数にして回帰分析
  • p値が大きい変数は削除。
  • ただし、変数の削除は1つずつ。
  • 変数を削除すると他の変数のp値が改善されることがある。
  • 原因の変数を複数にすると決定係数(重決定R2)は大きくなる。
その他
分析ツール
できること
  • t検定(p値)
  • 基本統計量(平均、中央値、最頻値、標準偏差、最小、最大、標本数、…)
  • 回帰分析
  • 相関
ソルバー機能
価格を上げると、粗利は増えるが、売上個数は減るというトレードオフの関係。 売上げを最大化するための価格を見付けるのがソルバー機能。
ラベル付き分布図
ラベル付き分布図でCSポートフォリオ
データバーで簡易ヒストグラム
countif関数 + 条件付き書式.データバー