日記: 統計・プログラミング・機械学習関連の本の立ち読みメモ

　こないだ、日本一大きい書店と言われる大阪のジュンク堂で、統計・プログラミング・機械学習関係の本をいくつか立ち読みしてきたのでメモしておきます。
　あくまでパラパラ立ち読みしてきただけなので中身は理解していません。今後買おうかな〜どうしようかな〜という検討のメモです。
　主に、以前のエントリの参考リンクに挙げた「銀座の〜」ブログで紹介されていた本を中心にチェックしてきました。

言語研究のためのプログラミング入門

言語研究のためのプログラミング入門: Pythonを活用したテキスト処理

作者: 淺尾仁彦,李在鎬
出版社/メーカー: 開拓社
発売日: 2013/06/25
メディア: 単行本
この商品を含むブログ (3件) を見る

　テキストデータの処理を中心に、Pythonの使い方を初心者向けに解説した本という感じでした。プログラミングの基本から、正規表現とかも解説し、形態素解析ぐらいまでやるという内容。
　自然言語処理の勉強というよりも、まずはとにかくプログラムを書いてテキストデータを操れるようになろうぜという感じで、Pythonの基本的な使い方を手取り足取り教えるという本でした。
　私が買った『Pythonスタートブック』みたいな超初心者向けのPython入門書に書かれているような内容も説明してたと思うので、自然言語研究どうのこうのというより、本書を「Pythonの入門書」として読むことも可能だと思いました。とくに、テキストの処理が多くなる人にとっては。
　

集合知プログラミング

作者: Toby Segaran,當山仁健,鴨澤眞夫
出版社/メーカー: オライリージャパン
発売日: 2008/07/25
メディア: 大型本
購入: 91人クリック: 2,220回
この商品を含むブログ (277件) を見る

　これは、機械学習の基本的なアルゴリズムを、Pythonのコードを書きながらガシガシ体験していくという感じでした。
　パラパラ読んだ限り、Pythonの基本をけっこう勉強したあとでないと、ついていけないと思いました。今の私ではぜんぜん無理なので、当分買わないでしょう。プログラマーの人とかだと余裕でしょうけど。
　ただし、１章30ページぐらいで進んでいくのですが、実際にWeb上で手に入るデータを使って、Webのマーケティングに関連する処理を中心にバンバン実践していくというもので、とても面白そうだとは思いました。Pythonの基本ができているという前提であれば、勉強回とかをやって１回１章ずつとか進んでいくと楽しそうです。
　今の私では読みこなせないので、２年後ぐらいに読めたらなと。
　↓公式サイトに目次が載ってました。（長いので章タイトルのみコピペ）

O'Reilly Japan - 集合知プログラミング

1章　集合知への招待
2章　推薦を行う
3章　グループを見つけ出す
4章　検索とランキング
5章　最適化
6章　ドキュメントフィルタリング
7章　決定木によるモデリング
8章　価格モデルの構築
9章　高度な分類手法：カーネルメソッドとSVM
10章　特徴を発見する
11章　進化する知性
12章　アルゴリズムのまとめ

入門機械学習

作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也
出版社/メーカー: オライリージャパン
発売日: 2012/12/22
メディア: 大型本
購入: 2人クリック: 41回
この商品を含むブログ (11件) を見る

　この本は、パラパラ読んでみたところ、分厚いんですがわかりやすいですね！早速Amazonで注文して到着待ちです。
　Amazonのレビューでは評判が悪いのですが（といっても２件しかないですが）、まぁ誤植が目立つというのは問題だとしても、主として『入門機械学習』というタイトルだけど使われる言語がRなのでR知らないと無理じゃん、っていう突っ込みのようです。サブタイトルに「Rによるなんとかかんとか」ってつけておけば、文句も少なかったんじゃないでしょうか。
　内容的には、「機械学習」という分野の全貌が初心者にも見通しやすいように、アルゴリズムや理論の発展の順を追って、何が重要であるかというポイントも解説されています。あくまでコードをどんどん書いていきましょうという実践の本なので、理論面は詳しくはないですけど、初心者でも「なんとなくそういう雰囲気なのか」と想像できて良いです。　　
　こちらも１つのテーマに30ページずつぐらいが割り当てられていて、最初はEメールのスパムフィルタを作るっていう課題からスタートするのですが、そこから順を追って、とにかくRのコードを書きながら（写経しながら）機械学習の基本を学べるというものです。
　機械学習の勉強は、Pythonの基本を勉強した上で、来年ぐらいからPythonで少しずつ始めようかなと思ってたのですが、『集合知プログラミング』が難し過ぎる内容だったので、Pythonに比べれば多少とも慣れているRで学べるこっちのほうがいいかなと心を入れ替えました。内容的にもこっちのほうが簡単そうに思えました。
　友人とやっているRの初心者勉強会で教科書として取り上げてもいいような気がしました。
　↓公式サイトに目次が載ってます。
　
　

O'Reilly Japan - 入門機械学習

1章　 Rを利用する
　　1.1　機械学習のためのR
　　　　1.1.1　Rのダウンロードとインストール
　　　　1.1.2　IDEとテキストエディタ
　　　　1.1.3　Rパッケージの読み込みとインストール
　　　　1.1.4　機械学習のためのRの基礎知識
　　　　1.1.5　Rに関する情報
　
2章　データの調査
　　2.1　探索と確証
　　2.2　データとは何か？
　　2.3　データ内の列の型を推論する
　　2.4　意味推論
　　2.5　数値による要約
　　2.6　平均値、中央値、最頻値
　　2.7　分位数
　　2.8　標準偏差と分散
　　2.9　探索的データの可視化
　　2.10　複数の列の関係の可視化
　
3章　分類：スパムフィルタ
　　3.1　白か黒か？二値分類
　　3.2　やさしい条件付き確率入門
　　3.3　初めてのベイズスパム分類器を書く
　　　　3.3.1　分類器を定義し、非スパム（難）でテストする
　　　　3.3.2　分類器をすべての種類の電子メールに対してテストする
　　　　3.3.3　結果を改善する
　
4章　順位付け：優先トレイ
　　4.1　並び順のわからないものをソートするには？
　　4.2　電子メールメッセージの優先度による並べ替え
　　　　4.2.1　電子メールの優先度の素性
　　4.3　優先トレイの実装
　　4.3.1　素性を抜き出すための関数群
　　4.3.2　順位付けのための重み付け方式の設計
　　4.3.3　電子メールのスレッド活動量を重み付けする
　　4.3.4　順位付けの訓練と検証
　
5章　回帰：ページビューの予測
　　5.1　回帰分析入門
　　　　5.1.1　ベースラインモデル
　　　　5.1.2　ダミー変数を使った回帰
　　　　5.1.3　線形回帰入門
　　5.2　ウェブのアクセス数を予測する
　　5.3　相関を定義する
　
6章　正則化：テキスト回帰
　　6.1　列の非線形関係：直線の先にあるもの
　　　　6.1.1　多項式回帰の紹介
　　6.2　過学習を防ぐ方法
　　　　6.2.1　正則化を用いて過学習を防ぐ
　　6.3　テキスト回帰
　　　　6.3.1　救いの手、ロジスティック回帰
　
7章　最適化：暗号解読
　　7.1　最適化入門
　　7.2　リッジ回帰
　　7.3　最適化としての暗号解読
　
8章　 PCA：株式市場指標の作成
　　8.1　教師なし学習
　
9章　 MDS：米国上院議員の類似度の視覚的な調査
　　9.1　類似度に基づいたクラスタリング
　　　　9.1.1　距離尺度と多次元尺度構成法の概要
　　9.2　米国上院議員はどのようにクラスタリングされるか？
　　　　9.2.1　米国上院議員点呼投票データの分析（第101議会〜第111議会）
　
10章　 k近傍法：推薦システム
　　10.1　k近傍法のアルゴリズム
　　10.2　Rパッケージのインストールデータ
　
11章　ソーシャルグラフの分析
　　11.1　ソーシャルネットワーク分析
　　　　11.1.1　グラフを使って考える
　　11.2　ツイッターのソーシャルグラフデータの調査
　　　　11.2.1　GoogleSocialGraphAPIの利用
　　11.3　ツイッターネットワークの分析
　　　　11.3.1　ローカルコミュニティ構造
　　　　11.3.2　クラスタリングされたツイッターネットワークのGephiでの可視化
　　　　11.3.3　独自の「フォローすべき人」エンジンの構築
　
12章　モデル比較
　　12.1　SVM：サポートベクターマシン
　　12.2　アルゴリズムを比較する

統計学がわかる

統計学がわかる (ファーストブック)

作者: 向後千春,冨永敦子
出版社/メーカー: 技術評論社
発売日: 2007/09/07
メディア: 単行本（ソフトカバー）
購入: 17人クリック: 153回
この商品を含むブログ (41件) を見る

　これは読もうと思ったわけでもなく、統計学の入門書を紹介するみたいなブログ記事だとよく挙げられているので、どんなものなんだろうと確認してみたものです。
　数式をあまり使わずに統計学の基本概念がハンバーガーショップの例などを用いて解説されており、とてもわかり易いと思いました。「研究」ではなく「ビジネス」で統計をゼロから勉強する場合は、この本のほうが良い気がしましたね。研究で使うなら、以前のエントリでも書いたように最初から『心理統計学の基礎』みたいな本を読んだほうが結局速いんじゃないかな〜と思うのですが。
　というか、本来ビジネスであれ研究であれ使うものは同じだと思うので、正確には単なるレベル感の問題で、「会社で薦めやすい」のは本書かなと思った次第です。ふつうのサラリーマンがスキルアップを目指して……という感じでよむ分には、まずこういう本じゃないと気力が続かないかなと。
　大学なら、サラリーマンよりは「根性」及び「義務感」がある状態で読むと思うし、周りに教えてくれる人もいるので、『心理統計学の基礎』みたいなやつから始めればいいと思いました。

統計学がわかる【回帰分析・因子分析編】

統計学がわかる【回帰分析・因子分析編】 (ファーストブック)

作者: 向後千春,冨永敦子
出版社/メーカー: 技術評論社
発売日: 2008/12/09
メディア: 単行本（ソフトカバー）
購入: 5人クリック: 13回
この商品を含むブログ (20件) を見る

　上記『統計学がわかる』の続編みたいなやつですね。『統計学がわかる』は、主に平均値の比較みたいな系統のテーマにフォーカスしたもので、要は基本的な検定の解説を通じて、確率分布に基づく統計学的なものの考え方を身につけるという感じ。　
　一方こちらの【回帰分析・因子分析編】は、変数と変数の関係を解き明かしていく系（まぁt検定だってカテゴリ変数と量的変数の関係を解き明かしてはいますが）の分析の入門という感じ。
　レベル感やわかりやすさは、『統計学がわかる』と同じです。