PHPcurl之爬虫初步

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

php的curl可以实现模拟http的各种请求，这也是php做网络爬虫的基础，也多用于接口api的调用。

这个时候有人就要发问了：为什么你特么不用file_get_contents?

curl的性能比它好，而且可以完成更多复杂的操作，不仅仅只是获取页面数据。

下面先分别介绍一些常用的函数。

curl_init 初始化一个curl对话

curl_exec 执行请求

curl_close 关闭一个curl对话

curl_setopt 设置curl参数，即传输选项

curl_errno 返回最后一次错误码,php已经定义了诸多错误枚举编码

curl_errror 返回一个保护当前会话最近一次错误的字符串

....

下面我先举一个例子，简单的get获取我博客首页的数据:

<?php
/**
 * test get request
 * User: freephp
 * Date: 2015/10/8
 * Time: 15:08
 */

$ch = curl_init();

// 2. 设置选项，包括URL
curl_setopt($ch, CURLOPT_URL, "http://www.cnblogs.com/freephp");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);
// 3. 执行并获取HTML文档内容
$output = curl_exec($ch);
// 4. 释放curl句柄
curl_close($ch);

print_r($output);



就可以打印出首页的html代码。
也可把内容写入某个文件存储，这不就是爬虫的第一步么？

然后我们正则匹配过滤出文章的url，我封装了一个方法：

/**
 * 从html内容中筛选链接
 *
 * @param string $web_content
 * @return array
 */
function filterUrl($web_content){
    $reg_tag_a = '/<[a|A].*?class="postTitle2".*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/';
    $result = preg_match_all($reg_tag_a,$web_content,$match_result);
    if($result){
        return $match_result[1];
    }
}

print_r(filterUrl($output));



打印出来如图：

然后再遍历去请求这些url，然后拿到所有的文章内容。

（待续.....）

为了复用，我把curl请求发起，内容写入文件，过滤得到文章内容等操作封装成方法。最终的完整代码如下：

<?php
/**
 * test get request
 * User: freephp
 * Date: 2015/10/8
 * Time: 15:08
 */

/**
 * 获取网页源码
 *
 * @param $url get方式请求的url
 * @return mixed
 */
function getRquest($url)
{
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    // 3. 执行并获取HTML文档内容
    $output = curl_exec($ch);
    // 4. 释放curl句柄
    curl_close($ch);
    return $output;
}


/**
 * 从html内容中筛选链接
 *
 * @param string $web_content
 * @return array
 */
function filterUrl($web_content)
{
    $reg_tag_a = '/<[a|A].*?class="postTitle2".*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/';
    $result = preg_match_all($reg_tag_a, $web_content, $match_result);
    if ($result) {
        return $match_result[1];
    }
}

/**
 * 从html内容中筛选文章内容
 *
 * @param string $content
 * @return array
 */
function filterContent($content)
{

    $reg = '/<.*\"likecs_post_body\">(.*?)<\/div>/ism';
    $result = preg_match_all($reg, $content, $match_result);
    if ($result) {
        return $match_result[1];
    }
}

/**
 * 抓取文章内容写入文件。
 *
 * @param string $fileName 存储文件名
 * @param string $contents 文章内容
 */
function writeToFile($fileName, $contents)
{
    $fp = fopen($fileName, 'w');

    fwrite($fp, $contents);
    fclose($fp);
}

$output = getRquest("http://www.cnblogs.com/freephp");

$articleUrls = filterUrl($output);
if (empty($articleUrls)) {
    echo '获取文章url失败';
    die();
}
$articleNum = count($articleUrls); 
echo '总共文章为:', $articleNum, "\r\n";
foreach ($articleUrls as $url) {
    echo '开始爬取url:', $url, "\r\n";
    $out = getRquest($url);
    $cont = filterContent($out);
    $filename = str_replace('.html', '', str_replace('http://www.cnblogs.com/freephp/p/', '', $url));
    writeToFile($filename . '.txt', $cont[0]);
    echo '完成爬取url:', $url, "\r\n";
}



后面还会用使用post方式等用途的curl，等到那个时候再封装成工具类吧。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

mongodb安装、开启服务和php添加mongodb扩展发布时间：2022-07-10

unity3d和php后台简单交互--二发布时间：2022-07-10

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

2022-08-17

win7系统重装系统初始设置的操作方法

2022-11-06

これがマストドンだ！使い方からインスタ

2022-08-17

黄聪：Delphi中使用ReportMachine 6.5中汇

2022-07-18

matlab练习程序（线性常微分方程组参数拟合

2022-07-18

阅读排行榜

1 MATLAB信号与系统分析（四）——离散信号与

一、系统的z变换和反变换 1、利用部分分式展开求解逆Z变换： 2、例子 3、Z变换的MATLA

阅读：540|2022-07-18

2 krishnaik06/Machine-Learning-in-90-days

krishnaik06/Machine-Learning-in-90-days

阅读：1121|2022-08-18

3 CVE-2022-2316

HTML injection vulnerability in secure messages of Devolutions Server before 202

阅读：1338|2022-07-08

4 armancodv/building-energy-model-matlab:

armancodv/building-energy-model-matlab: It is a small software which is develope

阅读：1167|2022-08-17

5 FGRibreau/import-tweets-to-mastodon: How

FGRibreau/import-tweets-to-mastodon: How to import tweets to mastodon (e.g. http

阅读：974|2022-08-17

6 tboronczyk/localization-middleware: PSR-

tboronczyk/localization-middleware: PSR-15 middleware to assist primarily with l

阅读：521|2022-08-16

7 臣的笔顺,解析臣的笔画,剖析臣的部首

臣的笔顺怎么写?臣的笔顺笔画顺序是什么?解析臣字的笔画顺序怎么写了解到好多的写字朋

阅读：565|2022-07-30

8 dotnet/MobileBlazorBindings: Experimenta

dotnet/MobileBlazorBindings: Experimental Mobile Blazor Bindings - Build native

阅读：438|2022-08-29

9 池的笔顺,谈谈池的笔画,讲述池的部首

池的笔顺怎么写?池的笔顺笔画顺序是什么?中国练字网了解到好多人在学习中会遇到池的笔

阅读：942|2022-11-06

10 heinrichreimer/material-intro: A simple

heinrichreimer/material-intro: A simple material design app intro with cool anim

阅读：427|2022-08-17

客服电话

电子邮件

PHPcurl之爬虫初步

请发表评论

全部评论

上一篇：

下一篇：

PacktPublishing/Python-Machine-Learning-

sussillo/hfopt-matlab: A parallel, cpu-b

鲁东大学一米网:Win7系统USB驱动器RAM的操

emersion/go-ostatus: An OStatus library

CVE-2022-22982

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

win7系统重装系统初始设置的操作方法

これがマストドンだ！使い方からインスタ

黄聪：Delphi中使用ReportMachine 6.5中汇

matlab练习程序（线性常微分方程组参数拟合

关于我们

产品与服务

解决方案

139-2527-9053

客服电话

电子邮件

PHPcurl之爬虫初步

请发表评论

全部评论

上一篇：

下一篇：

PacktPublishing/Python-Machine-Learning-

sussillo/hfopt-matlab: A parallel, cpu-b

鲁东大学一米网:Win7系统USB驱动器RAM的操

emersion/go-ostatus: An OStatus library

CVE-2022-22982

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

win7系统重装系统初始设置的操作方法

これがマストドンだ！ 使い方からインスタ

黄聪：Delphi中使用ReportMachine 6.5中汇

matlab练习程序（线性常微分方程组参数拟合

关于我们

产品与服务

解决方案

139-2527-9053

これがマストドンだ！使い方からインスタ