在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:wxhub开源软件地址:https://gitee.com/isyuu/wxhub开源软件介绍:公众号文章抓取工具使用公众号文章编辑链接的方案, 突破搜狗方案10条的限制~~~ ;-) 2018.12
todo.list 文件记录了公众号下所有文章的链接数据, 因为高频次调用文章搜索/翻页接口会导致被ban.所以目前的方案是使用mask记录所有索引处理记录, 保证了不会翻页相同位置, 提高了获取新增链接的几率. 2019.01
准备
pip install -r requirements.txt 结构wxhub/├── README.md├── arti.cache.list (使用后生成) ├── chromedriver (默认macOS版本, windows可另行下载 重命名即可)├── cookies.json (使用后生成)├── gongzhonghao.py (使用后生成)├── output (使用后生成)├── requirements.txt ├── url.cache.list (使用后生成)└── wxhub.py 使用(py3) isyuu:wxhub isyuu$ python wxhub.py -husage: wxhub.py [-h] -biz BIZ [-chrome CHROME] [-arti ARTI] [-method METHOD] [-sleep SLEEP] [-pipe PIPE] [-pl PAGE_LIMIT]公众号文章全搞定optional arguments: -h, --help show this help message and exit -biz BIZ 必填:公众号名字 -chrome CHROME 可选:web chrome 路径, 默认使用脚本同级目录下的chromedriver -arti ARTI 可选:文章名字, 默认处理全部文章 -method METHOD 可选, 处理方法: all_images, baidu_pan_links, whole_page -sleep SLEEP 翻页休眠时间, 默认为1即 1秒每页. -pipe PIPE 在method指定为pipe时, 该参数指定pipe处理流程. 例如:"pipe_example, pipe_example1, pipe_example2, pipe_example3" -pl PAGE_LIMIT 指定最大翻页次数, 每次同一个公众号, 翻页太多次会被ban, 0:不翻页 只处理todo.list, 默认<0:无限制 >0:翻页次数 现有缓存功能, 目前缓存在如下文件中.
需要全部重新下载时, 删除对应文件即可. 已知问题
|
2023-10-27
2022-08-15
2022-08-17
2022-09-23
2022-08-13
请发表评论