hiroyuki_tの日記
明日からつかえるシンプル統計学 ~身近な事例でするする身につく最低限の知識とコツ (現場の統計学) 「明日からつかえるシンプル統計学 ~身近な事例でするする身につく最低限の知識とコツ (現場の統計学)」読了 Amazon.co.jpアソシエイトによる画像リンクです。書影を利用するために使用しています。 基礎から学ぶ機械学習1冊目 ざっくりとしたまとめ、詳細は本を購入ください。 まずはこれがわかれば十分 まずはこれがわかれば十分として、以下が取り上げられている。 平均・中央値・最大/最小値 標準偏差 各種グラフによる視覚化・比較 相関 単回帰分析 平均・中央値 平均 メリット 全体の大きさを一つの数値で簡単に表現できる(必ずしも真ん中ではない) 一つの計算がしやすい(平均を出すのも使うのも) デメリット 極端に大きい(小さい)データがあると影響を受けやすい 中央値 メリット 全体の大きさを一つの数値で簡単に表現できる 極端なデータの影響を受けず、真ん中の値を取れる デメリット 平均に比べると精度が落ちる 他への拡張がしにくい 平均、中央値を両方記載すると良いことが多い。 標準偏差を実務で使いこなすには 平均値を出し、標準偏差を出し、前回と比較する。 (p42) グラフによる視覚化・比較 折れ線グラフ、棒グラフ、円グラフ、散布図 を適した形で使い分けることが重要 p77に早見マトリックスあり 相関分析 何を図るのか 相関の度合いを図る それはすなわちどういうことか 2種類のデータの関連の強さ(どのくらい直線(比例)的か) 指標 相関係数(0.7以上or -0.7以下だと相関関係あり) 単回帰分析 何を図るのか 近似曲線 それはすなわちどういうことか 2種類のデータの関係性を最もよく示す直線とその数式 指標 決定係数(0.5以上だと妥当な近似曲線が得られたと考える)
1 Oct 2017
基礎から学ぶ機械学習(本の独習による勉強) 統計学・機械学習の勉強について以下を参考にして勉強する計画を立てました。 431日の計画ができました。 初級者向けは、コンピューターで「脳」がつくれるか以外を実施で、今月中に完了を目指します。 中級者向けは1冊 半月 or 1ヶ月用意しています。 初級者向けは行けると思いますが、 中級者向けは読む前に必要な前提知識もあり、かなり厳しいと考えています。 勉強を進めます。 データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊&中級者向け15冊(2017年春版)
1 Oct 2017
一から始める機械学習(Kaggleで学ぶ機械学習) 機械学習の研修用の資料を作成しました。 一から始める機械学習(機械学習概要)の続編でKaggleを使用した実践編です。 Speaker Deck Qiita http://qiita.com/taki_tflare/items/8850ac5ba8b504a171aa
16 Sep 2017
一から始める機械学習(機械学習概要) 機械学習の研修用の資料を作成しました。 タイトル通り機械学習に今まで触れたことのない人を対象にしています。 Speaker Deck Qiita http://qiita.com/taki_tflare/items/42a40119d3d8e622edd2
19 Aug 2017
#「別冊NHK100分de名著 集中講義 大乗仏教 こうしてブッダの教えは変容した」読了 感想 「釈迦の仏教」 「釈迦の仏教」は出家・修行活動が必要で、出家すると生産活動もできないため、 戦乱や生活が苦しいとそれをサポートできなくなり維持が難しい。 「釈迦の仏教」は自分の力で道を切り開くのがポイント 大乗仏教 大乗仏教は生活が苦しい中、それでも救いを得たいと思った人たちが初めたと思われる。 大乗仏教は外部の不思議な力で救われるのがポイント 宗教は 宗教は人によって合う合わないがあり、それぞれの人が本当に信じられるものであればなんでもかまわないのではと感じた。 また時代により求められるものが変わってくるものであるとも感じた。 生活が豊かになっている現在日本では 生活が豊かになっている現在日本では、 「釈迦の仏教」のなかに受けいられる部分もあると思われるので その部分を学んでみるのもよいのではないかと感じられた。
25 Jun 2017
僕たちのインターネット史 読了 本の内容について、個人的に気になった箇所をまとめたもの。 完全に引用した箇所については引用ページを記載した。 インターネットが広告ベースで成立してしまったため、 PV数を稼ぐのが至上命題となり、 どんなことをしてもPV数を稼ぐのが正義となり、 意味もわからずまとめたサイトなどが生まれた。 Googleが一番強かったのがゼロ年代半ばまでは、広告が強かったが、 TwitterやTumblrなどのセミクローズドなサービスが始まり オープンなウエブ向けの広告だけでは成り立たなくなり グッズか有料アプリか月額会員制にするしかなくなった。 90年台まではジョン・ペリー・バーロウの「サイバースペース独立宣言」みたいに、 現実から独立したフロンティアのようにインターネットを夢想できた。 それに対して、あくまで現実ありきで、その現実について語るインフラにすぎなくなっているのがいまのインターネットですね。 p231 未来のインターネットの可能性について考えるためには、(中略)人文的な知と工学的な知の 協働が必須だと思います。 p233 しかし、人文的な知は軽視されており、人文的な知と工学的な知の両方を持っている人はいない。 しかし未来のインターネットの可能性を考えるには、よくよく考えなくてはならない。
24 Jun 2017
小さなチーム、大きな仕事〔完全版〕: 37シグナルズ成功の法則読了 素晴らしく面白い本だった。 まずやらないと始まらない。 日々を頑張らなくていけないという気持ちになる。 本の内容で気になったところを以下に抜き出す。 大切なのは中に置かなかったものである。だから、つねに取り除き、シンプルにし、合理化するように努めよう。 キュレーターになろう。何が真に必要かにこだわるのだ。いちばん大切なものだけが残るまでそれを繰り返していくのだ。 もし必要ならば、後で追加できるのだから。 p82 ビジネスを立てあげるのなら、その核は変わらないものであるべきだ。人々が今日欲しいと思う、そして10年後も欲しいと思うもの。そうしたものにこそ力を投入すべきだ。 p87 ビジネスの世界では、本質的な問題から目をそむけ、ツールやソフトウエアの細かなテクニック、スケールの問題、高価なオフィス空間、豪華な備品といったどうでもいいことに心酔する人があまりにも多すぎる。ほんとうに重要なのはどのように顧客を増やし、利益を増やすかということなのに p87 教える価値があり、プロモーションにもなるネタとは何だろうか?この本が僕達の料理本だ。ではあなたのは? p179
24 Jun 2017
契約サービスまとめ(随時更新) 自分の契約しているサービスのまとめ サービスの移行等の検討用 SIM mineo Dプラン デュアルタイプ 3GB 料金:1,600円/月 契約開始日:2017年6月から ポイント:ドコモからの変更 月5000円ぐらい安くなるはず。 2017年7月にデュアルタイプ 6GB(2,280円/月)からデュアルタイプ 3GB(1,600円/月)に変更 そんなにデータ使わない 12カ月以内にMNP転出する場合は、MNP転出手数料12,420円がかかるので、1年は使うつもり。 mineoは通信速度がそこそこで、かつ mineoが他の会社に吸収されるということがあまりなさそうなのでここにした。(格安SIMは今後会社統合等色々ありそう。) プランだけなら、最適プランが有るエキサイトモバイルの方が良かった。 プロバイダ OCN光(光コラボ) マンションタイプ 2年割 料金:3,600円/月 契約開始日:2015年6月から ポイント:他に良いプロバイダがあれば乗り換えたいが、見つからないので更新 ドメイン スタードメイン 料金:1,274円/年 上位レジストラ:netowl 契約開始日:2013年10月から 2017年6月に上位レジストラ:eNom(1,922円/年)から上位レジストラ:netowl(1,274円/年)に変更 ホスティングサービス Netlify 契約開始日:2017年7月14日から ポイント:GitHubリポジトリにプッシュがある度にビルドしてデプロイしてくれる。お陰でサイト運用がかなり楽になった。 メールサービス さくらのメールボックス 料金:1,029円/年 契約開始日:2016年9月から ポイント:メーリングリスト、メール確認用 クレジットカード Amazon MasterCardゴールド 料金:4,320円/年(マイ・ペイすリボ、WEB明細書割引後の料金) 契約開始日:2016年7月から ポイント:プライム3,900円相当がついているので、プライムを使うのであればかなりお得 Amazonの買い物2.5%引き Amazon以外の買い物1%引き VIEW Suicaカード 料金:477円/年(利用代金明細書をWebにすると600円相当のポイントが貰える) 契約開始日:2016年10月から ポイント:主にモバイルSuica用 モバイルSuicaがかなり便利なため使える。 チャージ、定期などで1.
24 Jun 2017
AI&機械学習しよう! ソース&論文輪読会(UNREAL)に出席してきました。part2 AI&機械学習しよう! ソース&論文輪読会(UNREAL)に出席してきました。 飯塚さんの「強化学習による 「Montezuma’s Revenge」への挑戦」の発表について個人的なまとめを記載します。 Montezuma’s Revengeとは DeepMindが強化学習の評価に利用するAtari2600ゲームの一つ 平均得点が人間に対し0%と強化学習における最難関ゲームの一つだった。(2016年6月まで) 得点が取れない原因 キャラが直ぐに死んでしまい、先に進めない 得点頻度が少なく、学習機会が少ない どのように対応したか A3C + Unifying Count-Based Exploration and Intrinsic Motivation + On-highscore-learningで対応 Unifying Count-Based Exploration and Intrinsic Motivation DeepMindの論文で概要は以下 ゲーム状態の頻度に基づいて、特典を与えることで報酬を与えるもの。 頻度が高い画面は得点を低くし、頻度が低い画面の得点を高くすることで、多くの画面に行くことのモチベーションを上げるもの On-highscore-learning 飯塚さんのオリジナルのアイデアで得点を得るまでの直前のステップで学習をさせるもの 他のコードも入っていたが、上記コードの効果が最大であった。 どのような結果が出たか 上記対応によりDeepMind論文未記載の部屋に到達 今後の課題・展望 現在は前処理でモノクロ化を行っているが、人間もカラーのほうが、現在場所がわかりやすいので、 カラー画像の学習も必要では 人間もマップを見ないとどの部屋にいて、どの戦略が必要かわかりにくい、AIもマップが必要では 個人的な感想 会場で話が出ていて気になったのが、機械学習では一つのハイパーパラメータですべて解決しようとすることが多いが、次のステップでは、それだけではだめで、例えばMontezuma’s Revengeの場合、部屋ごとに学習が必要ではないかという話が出ていた。 個人的に考えていたのが、Montezuma’s Revengeをクリアするにはどうすればよいのかということで、Montezuma’s Revengeにはパズル的な要素が存在するため、特定のルートを通らないとクリアできないようになっていたはず、そのため現在のスコアを追い求めるスタイルだけでは、クリアが難しいのではと感じた。 (人でもクリアにはマップを用意して実施する必要があり、同じことをやる必要があるなと考えていた。) Montezuma’s Revengeは以下により小さな子どもにはクリアが難しいゲームである。子どもの成長によりクリアできる可能性が上がってくるがその成長により得られる能力のどこが効果的に機能しているのか調べれば、ヒントが得られるかもしれないと考えている。 すぐに死ぬ等の操作が難しい パズル性が難しい。
4 Jun 2017
AI&機械学習しよう! ソース&論文輪読会(UNREAL)に出席してきました。part1 AI&機械学習しよう! ソース&論文輪読会(UNREAL)に出席してきました。 三好さんのUNREALの発表について個人的なまとめを記載します。 UNREAL 強化学習のA3CアルゴリズムをベースにExperience Replayを効果的に使った補助タスクを組み合わせて3D迷路でx10倍の高速化を実現 UNREALへの流れ DQN(2013年)→A3C(2016年)→UNREAL(2016年) A3C:複数の環境を非同期に並列で動かし高速化 UNREAL:A3CにExperience Replayを効果的に使った以下の補助タスクを導入し、さらに学習を高速化させる。 *最近はA3Cをベースとした論文が多数出ている Pixel Control Reward Prediction Value Function Replay Pixel Control 画面のピクセル値の変化を擬似報酬とする補助タスク 画面を20✕20のピクセルグリットに分け、グリット毎にQ学習を行う。 https://www.youtube.com/watch?v=xHK0qBeH3-I 上記のPCがピクセルグリットに分けたもの、 上記のPC Qがグリット毎にQ学習を実行した結果 このPixel Controlが3つの中で一番効果が高い。 個人的な感想 Pixel Controlが効果的な結果を上げているので 例えばAtari breakout(ブロック崩し)ではA3Cと比べて効果を上げるのが難しいのではないかと感じた。 Pixel Controlは情報の圧縮をしているようなもので、 breakoutは単純で、既に圧縮されているようなものなので、効果はそこまででもないのかと 逆に圧縮が効くような場合は速度に大きな効果を上げるものであると感じた。 以下は少し上記の話とは外れるが、 ゲームの上手い人は情報の圧縮の仕方がうまく、良いゲームはそれを発見させる用にできている。 例えばゲームによっては、面の背景が同じ色の場合は同じ方法論でいける箇所、面の背景が異なった色になっている場合は違う考え方をしなければいけないというサインが存在している場合がある。 面の背景色が違うというのはゲームからのヒント、ゲームの上手い人はこれをとらえ、同じ背景色の場合、前と同じ戦略が使えないか考え、違う背景色がでた場合、前と違う戦略を使わなければ行けないのか考える。しかしゲームの下手な人は違いを考えずに動き、失敗する。 これは試したことで得られた情報をいかに有効に活用し、 また活用しないかということを突き詰めれば、 現在人より劣った結果しかでていないゲームで高得点をあげられるのではと考えている。 またゲームの初期状態の教育に、転移学習を使えれば有効なのかとも考えている。
4 Jun 2017
Design pdevty