• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

php爬虫实践

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

之前用nodejs的cheerio来做,不过nodejs的异步回掉太恶心了,受不了。

后来发现了php的htmlpagedom库,类似jquery的选择器语法,而且支持中文。

安装  composer install wa72/htmlpagedom

1、读取一个简单的网页,如:

require \'vendor/autoload.php\';

use \Wa72\HtmlPageDom\HtmlPageCrawler;

$url = "http://news.cnblogs.com/";

$dom = HtmlPageCrawler::create(file_get_contents($url));

print $dom->text(); //输出内容

 

2、如何分析,使用jquery选择器语法,可以参考

如提取博客园新闻首页第一页的所有链接,结构如下

$news_list = $dom->filter("#news_list");
$news_entry =$news_list->filter(".news_entry");
$urls = [];
$i = 0;
$url_cnt = $news_entry->count();
//print $url_cnt; 30条,在浏览器里查找“发布于”是30,证明是正确的
while ($i<$url_cnt){
    $urls[] = $news_entry->eq($i)->filter(\'a\')->eq(0)->attr("href");
    ++$i;
}

可能有人疑问,为啥不用foreach

因为$news_entry->children() 返回的是DOMElement,而不是HtmlPageCrawler,不能使用filter,还要继续用HtmlPageCrawler::create()。

3、提取新闻正文

 

$content = HtmlPageCrawler::create(file_get_contents($url.$urls[0]));

print $content->filter("#news_body")->text();

4、说明

有些网站的内容可能不是utf8的这时就要用iconv转码了

可以写个函数封装一下,$base根url,因为很多情况下链接是相对的。

function httpGet($url, $base = null) {

    if (!$base) {
        $url .= $base;
    }
    $html = file_get_contents($url);
    $encode = mb_detect_encoding($html, "gbk,utf-8");
    if (stripos($encode, "utf") !== false) {
        return HtmlPageCrawler::create($html);
    } else {
        $utf_html = iconv("gbk", "utf-8", $html);
        return HtmlPageCrawler::create($utf_html);
    }
}

如果用html()函数获取html则输出的都是html实体编码,可以用html_entity_decode

另外可以用strip_tags 来去除html里的某些标签。

id是唯一的,而class和标签都不是唯一的,所以获取class和标签,就算只有一个也要用eq(0)还获取

 

jquery有个has函数判断是否存在某个标签,而HtmlPageCrawler缺少这个,于是手工添加了一个。

在HtmlPageCrawler.php的hasClass函数下面,添加如下代码

    public function has($name) {
        foreach ($this->children() as $node){
             if ($node instanceof \DOMElement) {
                $tagName = $node->tagName;
                if (stripos($tagName, $name) !== false) {
                    return true;
                }
            }
        }
        return false;
    }

 


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
php-在php脚本中处理select查询结果集发布时间:2022-07-10
下一篇:
php上传文件与图片到七牛的实例详解发布时间:2022-07-10
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap