设为首页
点击收藏
手机版

手机扫一扫访问
迪恩网络手机版
关注官方公众号

微信扫一扫关注
公众号

快速发帖
客服电话

点击联系客服
在线时间：8:00-16:00

客服电话

132-9538-2358

电子邮件
[email protected]
APP下载

迪恩网络APP

随时随地掌握行业动态
官方微信

扫描二维码

关注迪恩网络微信公众号
问题反馈
返回顶部

OStack程序员社区-中国程序员成长平台 › 门户 › 开源› WEB应用开发›Web爬虫

scrapy-douban-group: 通过一个实际的项目，来学习如何使用scrapy爬取网络上的信息。 ...

原作者: [db:作者] 来自: 网络收藏邀请

开源软件名称：

scrapy-douban-group

开源软件地址：

https://gitee.com/mktime/scrapy-douban-group

开源软件介绍：

douban_scrapy

感谢豆瓣小组提供数据来源

环境准备

[Scrapy] (http://scrapy.org/)
[MongoDB] (https://www.mongodb.org/)

快速开始

#: 安装必要 python 库sudo pip install scrapysudo pip install pymongo#: 下载图片到本地,并且保存相关信息到MongoDB中.scrapy crawl haixiuzu#: 生成本地相册需要的json data.python check.py#: 建立本地http serverpython -m SimpleHTTPServer 80#: 打开浏览器输入http://localhost/gallary

已实现的功能

爬取大家的发贴信息(标题、标题URL、作者、作者URL等)，以及下载图片到本地
爬取用户地理位置信息
增加RandomUserAgent功能,防止被BAN
增加延时抓取功能，防止被BAN
由于下载图片较多，故采用hash方法分散到多个目录进行管理，提高打开文件夹速度

计划实现的功能

本地相册功能,可以在浏览器内预览图,通过快捷键j,k,space等对图片进行翻页,加红心,删除等功能
本地相册功能打算借鉴(fgallery)[http://www.thregr.org/~wavexx/software/fgallery/demo/]
如果图片对应的topic已被管理员删除，则高亮显示

更多

该文章已有0人参与评论

请发表评论

全部评论

专题导读

上一篇：

wxhub: 微信公众号文章-无限制抓取发布时间：2022-02-14

下一篇：

xxl-crawler: 一个分布式爬虫框架。一行代码开发一个分布式爬虫，拥有"多线程、 ...发布时间：2022-02-14

热门推荐

热门话题

阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服（服务时间 9:00～18:00）

地址：深圳市南山区西丽大学城创智工业园

电邮：jeky_zhao#qq.com

移动电话：139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap