- 基本
- ピボットテーブル
- t検定
- データ分析の流れ
- 回帰分析
- その他
基本
- 折れ線グラフには平均と標準偏差の補助線を引く。「外れ値」が見やすくなる。
-
変動係数 = 標準偏差 ÷ 平均
標準偏差・・・絶対的なばらつき
変動係数・・・相対的なばらつき -
(各値 - 平均) ÷ 標準偏差
個々の値の平均からのズレが標準偏差の何個分に当たるか - 偏差値 = {(各値 - 平均) ÷ 標準偏差} × 10 + 50
ピボットテーブル
-
データを「週末」と「平日」に分け、それぞれの基本統計量を計算する。
行ラベル = 週末フラグ
値 = 売上げの合計、平均、標準偏差・・・
t検定
- 平均の差の検定
- 2つのグループの平均値の差を比較し、差がある言って良いかを検証すること。
- Excelの「分析ツール」を使う。(「t検定:分散が等しくないと仮定した2標本による検定」)
- 「p値(両側)」に着目する。
p値
- 誤判断リスク
- 0〜1
- 0・・・「2つのグループの平均に差がある」という主張が間違っている確率が0%
- 1・・・「2つのグループの平均に差がある」という主張が間違っている確率が100%
- 有意水準、有意確率 ・・・許容できるリスク(p値)の上限。
- 平均の差の検定(t検定)を用いて、週末と平日の売上高の平均の差について、誤判断リスク(p値)を加味して判断することができる。
データ分析の流れ
- 売上高を増やす = ゴール = 結果系変数
結果系変数を分解してサブゴールを見つける。
-
売上高 = 客数 × 客単価
客数を増やす ← サブゴール
客単価を増やす ← サブゴール
- サブゴールをグラフ化(ヒストグラム)する。(ヒストグラムは分析ツールで)
- ヒストグラムの山が複数あれば、異なる傾向が混ざっている可能性あり。
-
ヒストグラムの描き方
区間の数 ・・・ √(データの数)
区間の幅 ・・・ (最大値 - 最小値) ÷ 区間の数 - サブゴールの基本統計量を比較する。
- 異なる単位のばらつきを比較するには変動係数を用いる。
- 結果系(売上高)と原因系(客数、客単価)の散布図をそれぞれ描き、関係を視覚化する。
- 散布図に直線を引き、傾向を見やすくする。(「近似曲線の追加(線形近似線)」機能を利用)
- 相関係数で直線傾向を数値化する。
-
相関係数…2変数の関係がどれくらい直線っぽいかを表す指標。
= correl(変数1群, 変数2群)
= -1 〜 +1 -
異なる結果系にそれぞれの原因系を考える。
客数 ・・・ 基本、天気、ちらし、キャンペーン、値引き
客単価 ・・・ POP、かごの配置、値引き -
まとめ
- 結果系の変数を分解する。
- 各変数の平均・標準変数・変動係数を調べる。
- 各変数と結果との相関を調べる。
- 分析ツールの「基本統計量」でデータの全体像を把握する。
- 量的変数と質的変数 ・・・ 質的変数は「0, 1, 2, …」に置き換える。
- 分析ツールの「相関」で相関係数をマトリックス表示。
- 散布図 → 近似曲線を追加(線形近似、数式表示ON)
- 近似曲線の数式(y=ax+b)が分かれば予測ができるようになる。
回帰分析
3つのポイント
- 係数:値引きすると売上個数はいくつ増えるのか
- p値:どれくらい安心してこの結果を見られるか
- 決定係数:価格だけで売上個数をどれくらい説明できるのか
- 残差:予想からどれくらい外れているか
係数
- 「y=ax+b」の傾き「a」と切片「b」のこと。
p値
- Probability value、有意確率
- 目安は0.05(5%有意水準)
- 切片のp値は無視。
決定係数
- Excelでは「重決定R2」と表記。
- 「分析に使った原因」で結果の何%の動きを説明できるのかを表す。
残差
- 予想が外れた理由を調べることにより新たな原因変数を得る。
原因を複数にして回帰分析
- p値が大きい変数は削除。
- ただし、変数の削除は1つずつ。
- 変数を削除すると他の変数のp値が改善されることがある。
- 原因の変数を複数にすると決定係数(重決定R2)は大きくなる。
その他
分析ツール
できること
- t検定(p値)
- 基本統計量(平均、中央値、最頻値、標準偏差、最小、最大、標本数、…)
- 回帰分析
- 相関
ソルバー機能
価格を上げると、粗利は増えるが、売上個数は減るというトレードオフの関係。
売上げを最大化するための価格を見付けるのがソルバー機能。ラベル付き分布図
ラベル付き分布図でCSポートフォリオデータバーで簡易ヒストグラム
countif関数 + 条件付き書式.データバー