明日からつかえるシンプル統計学 ~身近な事例でするする身につく最低限の知識とコツ (現場の統計学)

「明日からつかえるシンプル統計学 ~身近な事例でするする身につく最低限の知識とコツ (現場の統計学)」読了

基礎から学ぶ機械学習1冊目

ざっくりとしたまとめ、詳細は本を購入ください。

まずはこれがわかれば十分

まずはこれがわかれば十分として、以下が取り上げられている。

  • 平均・中央値・最大/最小値
  • 標準偏差
  • 各種グラフによる視覚化・比較
  • 相関
  • 単回帰分析

平均・中央値

平均

  • メリット
    • 全体の大きさを一つの数値で簡単に表現できる(必ずしも真ん中ではない)
    • 一つの計算がしやすい(平均を出すのも使うのも)
  • デメリット
    • 極端に大きい(小さい)データがあると影響を受けやすい

中央値

  • メリット
    • 全体の大きさを一つの数値で簡単に表現できる
    • 極端なデータの影響を受けず、真ん中の値を取れる
  • デメリット
    • 平均に比べると精度が落ちる
    • 他への拡張がしにくい

平均、中央値を両方記載すると良いことが多い。

標準偏差を実務で使いこなすには

平均値を出し、標準偏差を出し、前回と比較する。 (p42)

グラフによる視覚化・比較

折れ線グラフ、棒グラフ、円グラフ、散布図 を適した形で使い分けることが重要 p77に早見マトリックスあり

相関分析

何を図るのか

相関の度合いを図る

それはすなわちどういうことか

2種類のデータの関連の強さ(どのくらい直線(比例)的か)

指標

相関係数(0.7以上or -0.7以下だと相関関係あり)

単回帰分析

何を図るのか

近似曲線

それはすなわちどういうことか

2種類のデータの関係性を最もよく示す直線とその数式

指標

決定係数(0.5以上だと妥当な近似曲線が得られたと考える)