在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
问题分析:请求抓取http://go.com数据:
结果响应:
结果中的http://go.com被重定向到了http://www.go.com/ 处理方法:设置CURLOPT_FOLLOWLOCATION 属性,同时可选设置 CURLOPT_MAXREDIRS数值
CURLOPT_FOLLOWLOCATION属性:true表示自动进行递归跳转抓取; 不过在使用时需要注意:
如果开户了安全模式,或者设置了open_basedir,则无法使用自动跳转抓取,此时可以采用连续抓取的办法来抓取最终页面。为加快速度和减少不必要的 开销, 可以在中间非目标页面的抓取过程中使用
只抓取头信息,并对header信息的状态码(301,302)进行判断。如需跳转,则从Location中获取到Location,再次进行抓取,直至状态码为200状态。 最后再对目标页面内容进行抓取 |
2022-07-18
2022-08-17
2022-11-06
2022-08-18
2022-08-16
请发表评论