php----爬虫（爬取豆瓣演员信息，搜索页）遇到的问题

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

需求：

给你一个演员，去爬取豆瓣改演员的信息，并存入数据库。

拿到需求之后想着自己之前也写过几个简单python爬虫脚本，觉得应该没问题。但是却被打脸了。

问题：

我首先是去看了一个php的爬虫框架Spider,框架不错（因为后面没用这个框架就不多说了）爬取页面信息用的是DomCrawler，准备开始动手。打开豆瓣的网页搜索刘德华页面如下：

可以看到问题出现了我输入刘德华得到的刘德华的个人信息的地址是没有刘德华这个关键字的，只有刘德华这个演员的豆瓣ID，你可能会说直接获取这个地址再请求一下就行了，是的我也这么想的。但是当你请求这个页面的时候发现，这个页面的内容加密了，这也是我第一次遇到加密的网页。开始一直以为是异步请求结果后面发现不是。然后再网上找到一篇解密的文章发现在自己的能力之外（本人只是个测试，开发的能力还是很有限的）然后就放弃了https://mp.weixin.qq.com/s/2mpu_oY2-M0wcLvf1eU7Sw（这个是解密的文章，感兴趣的可以试一下）。这个问题就困扰了我几天。没办法只能换办法了，然后我发现在百度搜索douban.com:刘德华(豆瓣)的结果看下图

上图a标签里面的链接，虽然是被转码了，点击是可以直接跳转到该演员的详情页面的，而且请求也可以直接请求到演员的豆瓣信息。

接着第二个问题来了，有的演员在豆瓣没有信息他就不会是这个链接，所以这里需要加一个判断，我是在上图中间红色框那里加的判断，如果中间八那个字符串里面包含了"celeb"字符串的话再去请求，不包含的话就不再去请求了。

接下来就到了我们的目标页面了如下：

每个演员的信息可能不同，所有很有可能会少一个信息多一个信息，所有这个我每一个信息都做了判断，有再去取，没有就此项信息就为空。代码如下：

最后还有一个坑，在请求的时候上图中的$header变量一定要加上，因为豆瓣做了反扒，如果你不是浏览器访问，会和谐你。加上这句模拟浏览器！！！

最后的工作就是吧拿到的信息处理之后存到数据库了，就和爬虫没有关系了。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

PHP错误与异常笔记与总结（1）错误（Deprecated，Notice，Warning） ...发布时间：2022-07-10

PHP_SELF变量解析和重复路径解决发布时间：2022-07-10

krishnaik06/Machine-Learning-in-90-days

1 librespeed/speedtest: Self-hosted Speedt

librespeed/speedtest: Self-hosted Speedtest for HTML5 and more. Easy setup, exam

阅读：1294|2022-08-30

2 avehtari/BDA_m_demos: Bayesian Data Anal

avehtari/BDA_m_demos: Bayesian Data Analysis demos for Matlab/Octave

阅读：1206|2022-08-17

3 四维彩超怎么看性别？四维看男孩女孩诀窍

女人怀孕后，为了有一个健康聪明的宝宝，经历各种体检、筛查。其实这些体检和筛查中的

阅读：1003|2022-11-06

4 CVE-2022-2488

A vulnerability was found in WAVLINK WN535K2 and WN535K3 and classified as criti

阅读：958|2022-07-29

5 medfreeman/markdown-it-toc-and-anchor: m

medfreeman/markdown-it-toc-and-anchor: markdown-it plugin to add a toc and ancho

阅读：1407|2022-08-18

6 cucci是什么牌子？盘点排名前十的潮流墨镜

古驰 cucci用中文翻译过来就是古驰的，意大利奢侈品牌，下面博主为大家盘点排名前十的

阅读：562|2022-07-30

7 fabric8io/fabric8: fabric8 is an open so

fabric8io/fabric8: fabric8 is an open source microservices platform based on Doc

阅读：962|2022-08-13

8 sydney0zq/covid-19-detection: The implem

sydney0zq/covid-19-detection: The implementation of A Weakly-supervised Framewor

阅读：519|2022-08-16

9 世界上哪个国家离中国最远？

离中国最远的国家是阿根廷。从太平洋直线计算，即往东线走，北京到阿根廷的布宜诺斯艾

阅读：670|2022-11-06

10 Delphi动态数组、静态数组、TBytes的区别

1.动态数组dArr1:arrayofbyte，数组的名称是一个地址，该地址和数组的第一个元素的地

阅读：1006|2022-07-18

客服电话

电子邮件

php----爬虫（爬取豆瓣演员信息，搜索页）遇到的问题

需求：

问题：

请发表评论

全部评论

上一篇：

下一篇：

bradtraversy/iweather: Ionic 3 mobile we

joaomh/curso-de-matlab

断牙刷新位置时间（断牙属性及刷新位置介绍

关于微信小程序getUserInfo最新修改后，如

rugk/mastodon-simplified-federation: Sim

krishnaik06/Machine-Learning-in-90-days

alexeagleson/template-react-component-li

armancodv/building-energy-model-matlab:

美元符号为什么是“$”

FGRibreau/import-tweets-to-mastodon: How

DelphiRichEdit控件错误：RichEditlineinse

关于我们

产品与服务

解决方案

139-2527-9053