明日からつかえるシンプル統計学 ~身近な事例でするする身につく最低限の知識とコツ (現場の統計学)
「明日からつかえるシンプル統計学 ~身近な事例でするする身につく最低限の知識とコツ (現場の統計学)」読了
基礎から学ぶ機械学習1冊目
ざっくりとしたまとめ、詳細は本を購入ください。
まずはこれがわかれば十分
まずはこれがわかれば十分として、以下が取り上げられている。
- 平均・中央値・最大/最小値
- 標準偏差
- 各種グラフによる視覚化・比較
- 相関
- 単回帰分析
平均・中央値
平均
- メリット
- 全体の大きさを一つの数値で簡単に表現できる(必ずしも真ん中ではない)
- 一つの計算がしやすい(平均を出すのも使うのも)
- デメリット
- 極端に大きい(小さい)データがあると影響を受けやすい
中央値
- メリット
- 全体の大きさを一つの数値で簡単に表現できる
- 極端なデータの影響を受けず、真ん中の値を取れる
- デメリット
- 平均に比べると精度が落ちる
- 他への拡張がしにくい
平均、中央値を両方記載すると良いことが多い。
標準偏差を実務で使いこなすには
平均値を出し、標準偏差を出し、前回と比較する。 (p42)
グラフによる視覚化・比較
折れ線グラフ、棒グラフ、円グラフ、散布図 を適した形で使い分けることが重要 p77に早見マトリックスあり
相関分析
何を図るのか
相関の度合いを図る
それはすなわちどういうことか
2種類のデータの関連の強さ(どのくらい直線(比例)的か)
指標
相関係数(0.7以上or -0.7以下だと相関関係あり)
単回帰分析
何を図るのか
近似曲線
それはすなわちどういうことか
2種類のデータの関係性を最もよく示す直線とその数式
指標
決定係数(0.5以上だと妥当な近似曲線が得られたと考える)