CPANのライブラリ群の中から特にWEBクライアントライブラリを落としてきて、実際に動作を確認してみる。WEBの仕組みを再確認する意味でも、ビジネスに応用できるかを評価する意味でも有意義。
■HTTP::*
HTTP通信を扱う為の基本クラス群
■LWP
HTTPアクセスを司る
■WWW::Mechanize
ブラウザの挙動に準じたメソッド群→リンクを辿る、フォーム送信、前頁に戻るなど。他、Cookie操作を隠蔽。柔軟なロボット作成に便利。
■Plagger
・アグリゲータのフレームワーク
・各処理ステップをプラグイン機構化
・デコードなどの処理を隠蔽
・一般的な処理をプラグイン化
・定期的、定型的な処理に強い
■Gungho
・WEBクローラフレームワーク
・各処理ステップをプラグイン機構化
・HTTPアクセスを並列処理
・HTTPアクセス部分は隠蔽
・大量WEBデータ取得に強い
■HTML::Parser
・HTMLを解析する為の基本クラス群
■HTML::TokeParser
・SAX的なHTMLの解析
・1要素ごとにコールバック
■HTML::TreeBuilder
・DOM的なHTMLの解析
・HTML::Elementのツリーを作る
■HTML::TreeBuilder::XPath
・XPathによるHTMLの解析
・CSSセレクタを扱いやすい
■WEB::Scraper
・XPathによるHTMLの解析
・デコードなどの処理を隠蔽
・抽出結果の配列化を隠蔽
・初期化の設定は対象を指定するだけ
・プログラミングレスでPlagger的
コメントする