php爬虫采集

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

概述

现在爬虫技术算是一个普遍的技术了，各个语言的爬虫百家争鸣，但是根据笔者自己的感觉还是python是主流。爬虫涉及到太多的东西，笔者并不是专业的爬虫工程师，只不过个人兴趣分享一下。由于笔者是php工作，所以就使用php来进行简单爬虫。不过我的方法应该是很通用的，我相信java，C#等肯定有类似的函数，然后做法其实都一样了。

技术准备
看懂这段代码你需要对php的正则表达式函数以及正则表达式有一定的理解。

代码 注意实际代码就这么多

<?php

//这个是你网页正则匹配出来的字符串

$str = '<div class="title">
　　　　<h3><span>[小组] </span> <a href="链接内容1" target="_blank">标签内容1</a></h3>
　　　　<div class="info">
　　　　237059 成员
　　　　</div>
　　　　</div>
　　　　<div class="title">
　　　　<h3><span>[小组] </span> <a href="链接内容2" target="_blank">标签内容2</a></h3>
　　　　<div class="info">
　　　　237059 成员
　　　　</div>
　　　　</div>';

//这个是正则的输出结果

print_r($match);//根据打印的结果很明白了吧

//这个方法就是抓取网页内容的方法了可以吧需要抓取的页面传进去，然后正则匹配内容哦

function getUrlContent($url){//通过url获取html内容

　　$ch = curl_init();
　　curl_setopt($ch,CURLOPT_URL,$url);
　　curl_setopt($ch,CURLOPT_USERAGENT,"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1 )");
　　curl_setopt($ch,CURLOPT_HEADER,1);
　　curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
　　$output = curl_exec($ch);
　　curl_close($ch);
　　return $output;
}
?>

到这里就可以匹配你想要的数据了，如果还是不懂，就继续往下瞅瞅
流程图

简单的爬虫，特殊字符处理就不进行了，保证插入数据库不出错就行了

思路
首先getUrlContent($url)函数，只需要穿一个url地址就行了，当然了因为各个网站都有反扒机制，不过笔者的这个函数并不是万能的，但是在豆瓣测试过，其他网站大家自行测试了。
任何网站都可以理解为一个很长的字符串，如果对html有研究无非就是:
<html>

　　<head>XXX</head>
　　<body>XXX</body>
</html>
我们需要的只是将body标签里的东西拿出来，笔者模拟了一段body里的代码

<html>
<head>XXX</head>
<body>
<div class="title">
<h3><span>[小组] </span> <a href="链接内容1" target="_blank">标签内容1</a></h3>
<div class="info">
237059 成员
</div>
</div>
<div class="title">
<h3><span>[小组] </span> <a href="链接内容2" target="_blank">标签内容2</a></h3>
<div class="info">
237059 成员
</div>
</div>
</body>
</html>
对于这段代码，可以理解为一个很长的字符串

$str = '<html>
<head>XXX</head>
　 <body>
　　<div class="title">
　　<h3><span>[小组] </span> <a href="链接内容1" target="_blank">标签内容1</a></h3>
　　<div class="info">
　　237059 成员
　　</div>
　　</div>
　　<div class="title">
　　<h3><span>[小组] </span> <a href="链接内容2" target="_blank">标签内容2</a></h3>
　　<div class="info">
　　237059 成员
　　</div>
　　</div>
　　</body>
</html>';

对这段字符串，只需要进行正则匹配拿出你想要的，假如需要a标签里的href与内容

preg_match_all('/<div class="title">[\s\S]*?<h3>[\s\S]*?<a href="(.*?)"[\s\S]*?>(.*?)<\/a>/',
$str,$match);

然后如果你不认识这段正则表达式还有preg_match_all函数，这里笔者就简单说下了，[\s\S]*?代表懒惰匹配任意字符，因为标签之间会用空格符换行符，这里又出现新问题什么叫懒惰匹配，简单来说就是匹配最少的内容。(.*?)代表非空字符，加括号的原因简单来说就是括号里的内容是你想要的，前面的[\s\S]*?匹配到的是一堆特殊符号，并没有什么作用，你不用把特殊符号记录下来，所以不加括号。

最后打印结果，也就是$match数组。

Array
(
[0] => Array
(
　　[0] => <div class="title">
　　　　<h3><span>[小组] </span> <a href="链接内容1" target="_blank">标签内容1</a>
　　[1] => <div class="title">
　　　　<h3><span>[小组] </span> <a href="链接内容2" target="_blank">标签内容2</a>
)

[1] => Array
(
　　[0] => 链接内容1
　　[1] => 链接内容2
)

[2] => Array
(
　　[0] => 标签内容1
　　[1] => 标签内容2
)

)
根据这个数组，需要什么自己遍历数组，然后拼装sql语句，插入到自己的数据库中即可。但是插入过程中可能会有一些单引号双引号捣乱，所以你用str_replace（）把他们替换掉，或者加转义符号。

总结
只是针对php进行的简单爬虫，不过爬虫的思路我相信很多种语言都用得到。不过很多网站的内容是通过js返回的，或者需要登陆才能获取到数据，这些比较高级的部分，有兴趣的推荐自学python爬虫。

本文转载自https://blog.csdn.net/qq_35370923/article/details/82901220

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

PHP以POST方式提交XML、获取XML，最后解析XML发布时间：2022-07-10

8.php回调后门发布时间：2022-07-10

CVE-2022-33173

1 chasinginfinity/ml-from-scratch: Machine

chasinginfinity/ml-from-scratch: Machine Learning algorithms implemented in Pyth

阅读：1552|2022-08-19

2 mkyong/spring3-mvc-maven-annotation-hell

mkyong/spring3-mvc-maven-annotation-hello-world: Maven + Spring 3 MVC hello worl

阅读：819|2022-08-17

3 床的笔顺,关于床的笔画,体会床的部首

床的笔顺怎么写?床的笔顺笔画顺序是什么?中国练字网了解到好多人在学习中会遇到床的笔

阅读：1386|2022-11-06

4 matlab函数int2str,num2str,str2num

函数名：int2str功能：将整数值转换为字符串输入格式：str=int2str(N)备注：就将该值

阅读：633|2022-07-18

5 zendesk/android-floating-action-button:

zendesk/android-floating-action-button: Floating Action Button for Android based

阅读：600|2022-08-17

6 女的笔顺,知晓女的笔画,解析女的部首

女字笔顺怎么写?女字笔顺笔画顺序是什么?知晓女字的笔画顺序怎么写了解到好多的写字朋

阅读：626|2022-07-30

7 lizhuohua/linux-kernel-module-rust

lizhuohua/linux-kernel-module-rust

阅读：536|2022-08-15

8 rhysd/Shiba: Rich markdown live preview

rhysd/Shiba: Rich markdown live preview app with linter

阅读：399|2022-08-18

9 win7系统程序加锁的操作方法

win7系统电脑使用过程中有不少朋友表示遇到过win7系统程序加锁的状况，当出现win7系统

阅读：441|2022-11-06

10 CVE-2016-7029

** REJECT ** DO NOT USE THIS CANDIDATE NUMBER. ConsultIDs: none. Reason: This ca

阅读：1201|2022-07-29

客服电话

电子邮件

php爬虫采集

请发表评论

全部评论

上一篇：

下一篇：

kojino/Harvard-Robust-Machine-Learning:

cescoffier/puppet-nexus: A Puppet Module

文的笔顺,诠释文的笔画,解读文的部首

Android_sendSms发短信小程序

Cassolotl/sentient.cloud · GitHub

CVE-2022-33173

bradtraversy/iweather: Ionic 3 mobile we

Ramotion/android-ui-animation-components

一个小时快速搭建微信小程序教程

joaomh/curso-de-matlab

断牙刷新位置时间（断牙属性及刷新位置介绍

关于我们

产品与服务

解决方案

139-2527-9053