• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

scrapy-douban-group: 通过一个实际的项目,来学习如何使用scrapy爬取网络上的信息。 ...

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

scrapy-douban-group

开源软件地址:

https://gitee.com/mktime/scrapy-douban-group

开源软件介绍:

douban_scrapy

感谢豆瓣小组提供数据来源

环境准备

快速开始

#: 安装必要 python 库sudo pip install scrapysudo pip install pymongo#: 下载图片到本地,并且保存相关信息到MongoDB中.scrapy crawl haixiuzu#: 生成本地相册需要的json data.python check.py#: 建立本地http serverpython -m SimpleHTTPServer 80#: 打开浏览器输入http://localhost/gallary

已实现的功能

  • 爬取大家的发贴信息(标题、标题URL、作者、作者URL等),以及下载图片到本地
  • 爬取用户地理位置信息
  • 增加RandomUserAgent功能,防止被BAN
  • 增加延时抓取功能,防止被BAN
  • 由于下载图片较多,故采用hash方法分散到多个目录进行管理,提高打开文件夹速度

计划实现的功能

  • 本地相册功能,可以在浏览器内预览图,通过快捷键j,k,space等对图片进行翻页,加红心,删除等功能
  • 本地相册功能打算借鉴(fgallery)[http://www.thregr.org/~wavexx/software/fgallery/demo/]
  • 如果图片对应的topic已被管理员删除,则高亮显示

更多


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap