百度网盘爬虫
现在市面上出现了很多网盘搜索引擎,写这系列博文及爬虫程序的初衷:
工具/库选择
百度网盘搜索流程
此爬虫原理是通过爬取用户的分享/专辑保存链接来达到资源搜索的目的,而用户与用户之间通过订阅/关注来联系,慢慢形成一个庞大的爬虫网络。
-
首先设定爬取用户(初始化爬虫队列)。
-
遍历用户分享/专辑,更改队列状态。
-
将用户订阅/关注用户加入队列。
-
重复以上步骤。
PS:看似简单的流程,想要精工还需细磨。
获取百度网盘推荐用户
当没有订阅任何用户时,网盘的分享动态界面会出现一些用户噢。这是系统推荐的用户,虽然改动不一定会很大,但是可以作为爬虫的初始用户来处理(这种推荐用户听说关注的人都不少噢)
接口返回信息:
errorno: 状态码
request_id:请求ID
hotuser_list:用户列表
用户列表结构:
type:类型(通常返回-1,不明用途)
hot_uname:用户昵称
avatar_url:头像缩略图地址
intro:描述
follow_count:订阅人数
fans_count:粉丝人数
user_type:用户类型?(不明意义)
is_vip:是否为VIP
pubshare_count:分享数
hot_uk:不知道啥玩意
album_count:分享专辑数
END
暂时就写到这儿了,要去写代码了~ 写完再会
|
请发表评论