RSSフィードを取得して中から画像抽出したりしてみたりし中2

なかなかむずいー。
というかpreg_matchだと最初にマッチしたパターンしか取れなかった!

preg_match_all('/<img(?:.*?)src=[\"\'](.*?)[\"\'](?:.*?)>/', $node['content'], $imgs);


本文の抽出が上手くいかないなぁ。
今はHTM::ExtractcontentをPHPに落とし込んだの(http://www.systemfriend.co.jp/node/326)を利用させてもらってるけど、
要チューニング。
そもそも画像抽出をしたいわけだから、extractcontent_analy関数の最後のst_tagsを行う前にimgタグを実体参照にして置換の対象から外す必要がある。

$bodylist[0][0] = preg_replace('/<img(.+?)>/ms', '&lt;img\\1&gt;', $bodylist[0][0]);


というか、そもそも本文がulタグ内のliとかで表現されてる場合もあるから(デザイン系だと多い)なおさないとー。
むむー。


それか、本文抽出したのからimgぶっこぬくのをやめて、
ページ全体からimgタグひっこぬいてきてサイズ小さいのを対象から外すとかすれば楽かも?
ただどれが重要な画像かって判別する重み付けを考える必要ががが。
単純にサイズ比較だけじゃダメだよなーw