使用php发送Http请求，抓取网页数据

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

做过j2ee 或android开发的童鞋，应该或多或少都使用过Apeache的HttpClient类库吧。这个类库给我们提供了十分强大的服务端Http请求操作。在开发中使用起来十分的方便。

最近做php的开发，也有需要在服务端发送http请求，然后处理返回到客户端，如果用socket来做，未必又太麻烦了，心想这看看php中有没有类似HttpClient这样的类库。

Google了一下，发现php中还真有这么一个类库，而且名字就叫做httpclient，相当的激动啊，到官网一看，发现已经好多年都没更新过了，而且功能貌似也有限，大失所望啊。接着我找到了另外一个类库Snoopy，对于这个类库我也不了解，不过看网上的响应还不错，于是决定就用他了。他的API使用和Apeache的HttpClient差别很大，但是还是十分容易使用。而且提供了许多特殊用途的方法，比如可以只抓去页面中的form表单，或者所有的链接等等。

include 'Snoopy.class.php';
$snoopy = new Snoopy();
$snoopy->fetch("http://www.baidu.com");
echo $snoopy->results;

上面这几句代码，就可以很轻松的将百度的页面抓取过来。

当然在需要发送post表单时，可以使用submit方法来提交数据。

同时他还提供请求头，响应头以及Cookie的相关操作函数，十分的强大。

include "Snoopy.class.php";
$snoopy = new Snoopy();

$snoopy->proxy_host = "http://www.baidu.cn";
$snoopy->proxy_port = "80";

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
 
$snoopy->cookies["SessionID"] = '238472834723489';
$snoopy->cookies["favoriteColor"] = "RED";

$snoopy->rawheaders["Pragma"] = "no-cache";

$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;

$snoopy->user = "joe";
$snoopy->pass = "bloe";

if($snoopy->fetchtext("http://www.baidu.cn")) {
    echo "<PRE>" . htmlspecialchars($snoopy->results) . "</PRE>\n";
} else {
    echo "error fetching document: " . $snoopy->error . "\n";
}

更多的操作方法，可以去Snoopy的官方查看文档，或者是直接查看源代码。

到这里，snoopy也仅仅是把页面抓取回来，如果要对抓取回来的页面进行数据提取，那么它就帮不上什么忙了。这里我又找到了另外一个php解析html的好工具：phpQuery，它提供的操作方法和jquery几乎一模一样，而且提供了一些php的特性，熟悉jquery的童鞋，用phpquery应该是相当的顺手啊，甚至phpQuery的文档都不需要了..

使用Snoopy+PhpQuery可以很方便的实现网页的抓取和数据解析，十分有用啊，我也是最近有这方面的需要，才发现了这两个不错的类库啊，原来很多java可以做的事情，php也能做哦。

有兴趣的同学，也可以试试用他们来做个简易的网页爬虫哦。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

php返回该字符最后一次出现到字符串到开始发布时间：2022-07-10

PHP复制和移动目录发布时间：2022-07-10

krishnaik06/Machine-Learning-in-90-days

1 十大利润最高的东西，你知道几个?

说到十大利润最高的东西，很多是我们生活中比较常见的，但也有一些是出人意料之外的暴

阅读：303|2022-11-06

2 krishnaik06/Machine-Learning-in-90-days

krishnaik06/Machine-Learning-in-90-days

阅读：1119|2022-08-18

3 CVE-2022-1875

Inappropriate implementation in PDF in Google Chrome prior to 102.0.5005.61 allo

阅读：1165|2022-07-29

4 armancodv/building-energy-model-matlab:

armancodv/building-energy-model-matlab: It is a small software which is develope

阅读：1167|2022-08-17

5 美元符号为什么是“$”

在美元的英文“dollar”里面明明没有字母“s”，为什么美元的符号($)是一条竖线穿过字

阅读：1120|2022-11-06

6 快的笔顺,知晓快的笔画,体会快的部首

快的笔顺是什么？快的笔顺笔画顺序怎么写？还有快的拼音及意思是什么，好多初学练字者

阅读：816|2022-07-30

7 FGRibreau/import-tweets-to-mastodon: How

FGRibreau/import-tweets-to-mastodon: How to import tweets to mastodon (e.g. http

阅读：973|2022-08-17

8 小二寸照片尺寸是多少（小二寸和二寸有什么

证件照的用途不用细说，很多人都有，但拍好看的人却不多。如何拍好看真得好好学一学，

阅读：508|2022-07-30

9 tboronczyk/localization-middleware: PSR-

tboronczyk/localization-middleware: PSR-15 middleware to assist primarily with l

阅读：519|2022-08-16

10 长沙科技学院怎么样?是几本

长沙城南，有一所以“环保”为名的学校，从1979年创立以来，四易归属、五更其名。这

阅读：818|2022-11-06

客服电话

电子邮件

使用php发送Http请求，抓取网页数据

请发表评论

全部评论

上一篇：

下一篇：

librespeed/speedtest: Self-hosted Speedt

avehtari/BDA_m_demos: Bayesian Data Anal

medfreeman/markdown-it-toc-and-anchor: m

微信小程序之--认识微信开放文档

如何搭建成语答题小程序

krishnaik06/Machine-Learning-in-90-days

armancodv/building-energy-model-matlab:

美元符号为什么是“$”

FGRibreau/import-tweets-to-mastodon: How

解决MATLAB在K-means提示“KMEANSdoesnotac

小程序报错x509:certificatesignedbyunknow

关于我们

产品与服务

解决方案

139-2527-9053