设为首页
点击收藏
手机版

手机扫一扫访问
迪恩网络手机版
关注官方公众号

微信扫一扫关注
公众号

快速发帖
客服电话

点击联系客服
在线时间：8:00-16:00

客服电话

132-9538-2358

电子邮件
[email protected]
APP下载

迪恩网络APP

随时随地掌握行业动态
官方微信

扫描二维码

关注迪恩网络微信公众号
问题反馈
返回顶部

亲亲特价:怎么删除回收站图标

OStack程序员社区-中国程序员成长平台 › 门户 › 开源›WEB应用开发

zhihu-crawler: zhihu-crawler是一个基于Java的爬虫实战项目，主要功能是抓取知乎用户 ...

原作者: [db:作者] 来自: 网络收藏邀请

开源软件名称：

zhihu-crawler

开源软件地址：

https://gitee.com/wycm/zhihu-crawler

开源软件介绍：

知乎爬虫

zhihu-crawler是一个基于Java的爬虫实战项目，主要功能是抓取知乎用户的基本资料，如果觉得不错，请给个star。

爬取结果

下图为爬取117w知乎用户数据的简单统计
详细统计见 https://www.vwycm.cn/zhihu/charts

需要

jdk 1.8
redis
mongodb

快速开始

修改zhihu/src/main/resources/application.yamlredis、mongodb相关配置，application.yaml
初始化zhihu/src/main/resources/mongo-init.sqlmongodb脚步，mongo-init.sql
设置日志路径，默认在/var/www/logslogback-spring.xml
Run with ZhihuCrawlerApplication.java

使用到的接口

地址(url)：https://www.zhihu.com/api/v4/members/${userid}/followees
请求类型：GET
请求参数

参数名	类型	必填	值	说明
include	String	是	`data[*]answer_count,articles_count`	需要返回的字段（这个值可以改根据需要增加一些字段，见如下示例url）
offset	int	是	0	偏移量（通过调整这个值可以获取到一个用户的`所有关注用户`资料）
limit	int	是	20	返回用户数（最大20，超过20无效）

url示例：https://www.zhihu.com/api/v4/members/wo-yan-chen-mo/followees?include=data[*].educations,employments,answer_count,business,locations,articles_count,follower_count,gender,following_count,question_count,voteup_count,thanked_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=0&limit=20
响应：json数据，会有关注用户资料

特性

大量使用http代理，突破同一个客户端访问量限制。
支持持久化(mongodb)。
多线程、爬取速度快、支持分布式爬取。

TODO

新增问题、答案、文章抓取
支持实时抓取，每小时更新知乎全站所有热门内容

更新

2019.02.21

基于Spring Boot重构项目，支持横向扩展，分布式抓取
数据持久化采用mongodb
采用基于Netty的AsyncHttpClient代替HttpClient4.5

2018.07.09

知乎网站更新，不再需要authorization验证
完善单测
修复已知bug

2017.11.05

知乎authorization文件更新，修改authorization获取方式。

2017.05.26

修复代理返回错误数据，导致java.lang.reflect.UndeclaredThrowableException异常。

2017.03.30

知乎api变更，关注列表页不能获取到关注人数，导致线程池任务不能持续下去。抓取模式切换成原来ListPageThreadPool和DetailPageThreadPool的方式。

2017.01.17

增加代理序列化。
调整项目结构，大幅度提高爬取速度。不再使用ListPageThreadPool和DetailPageThreadPool的方式。直接下载关注列表页，可以直接获取到用户详细资料。

2017.01.10

不再采用登录抓取，并移除登录抓取相关模块，模拟登录的主要逻辑代码见ModelLogin.java。
优化项目结构，加快爬取速度。采用ListPageThreadPool和DetailPageThreadPool两个线程池。ListPageThreadPool负责下载”关注用户“列表页，解析出关注用户，将关注用户的url去重，然后放到DetailPageThreadPool线程池。DetailPageThreadPool负责下载用户详情页面，解析出用户基本信息并入库，获取该用户的"关注用户"的列表页url并放到ListPageThreadPool。

2016.12.26

移除未使用的包，修复ConcurrentModificationException和NoSuchElementException异常问题。
增加游客（免登录）模式抓取。
增加代理抓取模块。

最后

想要爬取其它数据，如问题、答案等，完全可以在此基础上自己定制。
有问题的请提issue。
欢迎贡献代码。
爬虫交流群：633925314，欢迎交流。
需要数据(117w知乎用户基本信息资料)的，关注公众号即可：lwndso

该文章已有0人参与评论

请发表评论

全部评论

专题导读

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

上一篇：

ModuleBackend: 旗鱼后台推出的模块化后台项目，旗鱼后台是德州深之海网络技术有限公 ...发布时间：2022-03-23

下一篇：

crab: Crab WEB 极速开发框架 GPL-3.0 协议发布时间：2022-03-23

热门推荐

热门话题

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

2023-10-27

florent37/ViewAnimator: A fluent Android

2022-08-15

florent37/Shrine-MaterialDesign2: implem

2022-08-17

CVE-2020-36276

2022-09-23

SimpleSoftwareIO/simple-sms: Send and re

2022-08-13

阅读排行榜

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：17219|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9314|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：7938|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8301|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8208|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9045|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8183|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7599|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8137|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7180|2022-11-06

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服（服务时间 9:00～18:00）

地址：深圳市南山区西丽大学城创智工业园

电邮：jeky_zhao#qq.com

移动电话：139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap