Web爬虫

OStack程序员社区-中国程序员成长平台 › 门户 › 开源› WEB应用开发›Web爬虫

RSS

picpicker: 根据图书ISBN抓图书封面图片的小程序

picpicker: 根据图书ISBN抓图书封面图片的小程序……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：424 | 回复：0
scrapy_proj: 因为是oschina所有都是大中文了：）起因是看到一个网站很多kindle的资源 ...

scrapy_proj: 因为是oschina所有都是大中文了：）起因是看到一个网站很多kindle的资源丧心病狂想占为己有全部趴下来自然使用了scrapyscrapy刚需安装beautifulsoup刚需安装mongodb随存储方式安装python渣要开始啦 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：426 | 回复：0
cocook-spider: 分布式数据抓取平台

cocook-spider: 分布式数据抓取平台……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：447 | 回复：0
nlp-spider-dynamic: nlp项目基础框架：爬虫，针对动态网页（JS）的专有爬虫 ...

nlp-spider-dynamic: nlp项目基础框架：爬虫，针对动态网页（JS）的专有爬虫……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：429 | 回复：0
ZhihuAnalyse: 知乎用户爬虫数据分析

ZhihuAnalyse: 知乎用户爬虫数据分析……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：421 | 回复：0
影视资源库（站点+采集）: python语言，基于tornado框架，MySql数据库（peewee库操作m ...

影视资源库（站点+采集）: python语言，基于tornado框架，MySql数据库（peewee库操作mysql），自带网络爬虫程序……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：440 | 回复：0
QuickCompanyCollect: 运行于java环境的一个免费开源的企业信息采集器（简单的java网 ...

QuickCompanyCollect: 运行于java环境的一个免费开源的企业信息采集器（简单的java网络爬虫）。信息采集完成后自动导出Excel表格。基于Jsoup+Poi+Sqlite开发完成。 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：428 | 回复：0
nutch-htmlunit: 基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件，镜 ...

nutch-htmlunit: 基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件，镜像自：https://github.com/xautlx/nutch-htmlunit……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：419 | 回复：0
Egg: 一个通用的爬虫

Egg: 一个通用的爬虫……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：430 | 回复：0
tianya: 使用boost.asio+qt实现的tianya小说阅读器，主要抓爬天涯各种网络小说，支持 ...

tianya: 使用boost.asio+qt实现的tianya小说阅读器，主要抓爬天涯各种网络小说，支持脱水，排序，下载等功能。该项目也是一个学习asio编程，特定目标爬虫编程的好示范。 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：429 | 回复：0
squirrel: squirrel（聚哩猫）是一款基于Java语言开发，借助webmagic框架实现的聚合科 ...

squirrel: squirrel（聚哩猫）是一款基于Java语言开发，借助webmagic框架实现的聚合科技资讯爬虫项目，享受24H科技新闻速览。……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：417 | 回复：0
CSDN-spider: 爬取csdn的文章并转换为md格式

CSDN-spider: 爬取csdn的文章并转换为md格式……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：402 | 回复：0
new_DMNovel: 重新构建DMNovel

new_DMNovel: 重新构建DMNovel……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：395 | 回复：0
SeparateBill: 外卖拼单（目前仅美团外卖、饿了么）抓取外卖网站的餐厅和菜品信息， ...

SeparateBill: 外卖拼单（目前仅美团外卖、饿了么）抓取外卖网站的餐厅和菜品信息，然后提供拼单、自动拆单、手工调整功能，方便同事们点外卖，以及费用计算 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：423 | 回复：0
ContentExtractor: 自动抽取网页正文的算法，用JAVA实现

ContentExtractor: 自动抽取网页正文的算法，用JAVA实现……

作者：菜鸟教程小白 | 时间：2022-2-14 20:58 | 阅读：499 | 回复：0
Spiderman: 强力 Java 爬虫，列表分页、详细页分页、ajax、微内核高扩展、配置灵活 ...

Spiderman: 强力 Java 爬虫，列表分页、详细页分页、ajax、微内核高扩展、配置灵活……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：182 | 回复：0
templatespider: 扒网站工具，看好哪个网站，指定好URL，自动扒下来做成模版。所见网 ...

templatespider: 扒网站工具，看好哪个网站，指定好URL，自动扒下来做成模版。所见网站，皆可为我所用！……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：198 | 回复：0
YayCrawler: 分布式爬虫系统，简单使用，高级配置。可扩展，减轻开发量，能docker化， ...

YayCrawler: 分布式爬虫系统，简单使用，高级配置。可扩展，减轻开发量，能docker化，适应各种急切需求核心框架：WebMagic, Spring Boot ，MongoDB, ActiveMQ ,Spring + Quartz，Spring Jpa ， Druid，Redis， Ehcac ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：184 | 回复：0
crawlab: Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台，支持Python、NodeJS ...

crawlab: Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：209 | 回复：0
DrissionPage: 以页面为单位整合 selenium 和 requests，封装了常用操作。极大地简化 ...

DrissionPage: 以页面为单位整合 selenium 和 requests，封装了常用操作。极大地简化了代码，易于使用，并可实现两种模式的无缝切换。可兼顾 selenium 的易用性和 requests 的高性能。 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：212 | 回复：0
neocrawler: 牛咖-neocrawler nodejs 的爬虫系统。特点：支持web界面方式的摘取规则 ...

neocrawler: 牛咖-neocrawler nodejs 的爬虫系统。特点：支持web界面方式的摘取规则配置（css selector regex）；包含无界面的浏览器引擎（phantomjs），支持js产生内容的抓取；用http代理路由的方式防止抓取并 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：210 | 回复：0
wind-bell: 风铃虫是一款轻量级的高效爬虫工具，配置简单，方便二次开发，能抓取js渲 ...

wind-bell: 风铃虫是一款轻量级的高效爬虫工具，配置简单，方便二次开发，能抓取js渲染的网页，可以抓取任何数据，支持保存网页快照，智能防封杀，天然适合分布式。 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：232 | 回复：0
蓝天采集器: 蓝天采集器是一款免费的数据采集发布爬虫软件，采用php+mysql开发，可部 ...

蓝天采集器: 蓝天采集器是一款免费的数据采集发布爬虫软件，采用php+mysql开发，可部署在云服务器，几乎能采集所有类型的网页，无缝对接各类CMS建站程序，免登录实时发布数据，全自动无需人工干预！是网页大数据采集 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：229 | 回复：0
ZhihuSpider: 多线程知乎用户爬虫，基于python3

ZhihuSpider: 多线程知乎用户爬虫，基于python3……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：228 | 回复：0
ECommerceCrawlers: 实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众 ...

ECommerceCrawlers: 实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、闲鱼、阿里任务、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：241 | 回复：0
Node-SpliderApi: 基于nodejs 的爬虫 API接口项目,包括前端开发日报、知乎日报、前端t ...

Node-SpliderApi: 基于nodejs 的爬虫 API接口项目,包括前端开发日报、知乎日报、前端top框架排行、妹纸福利、搞笑视频、各类视频新闻资讯热点详情接口数据 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：276 | 回复：0
zongtui-webcrawler: 基于hadoop思维的分布式网络爬虫。

zongtui-webcrawler: 基于hadoop思维的分布式网络爬虫。……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：352 | 回复：0
xxl-crawler: 一个分布式爬虫框架。一行代码开发一个分布式爬虫，拥有"多线程、 ...

xxl-crawler: 一个分布式爬虫框架。一行代码开发一个分布式爬虫，拥有多线程、异步、IP动态代理、分布式、JS渲染等特性；……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：407 | 回复：0
scrapy-douban-group: 通过一个实际的项目，来学习如何使用scrapy爬取网络上的信息。 ...

scrapy-douban-group: 通过一个实际的项目，来学习如何使用scrapy爬取网络上的信息。这里以豆瓣小组为例，对组内的图片进行爬取，相关信息保存数据到MongoDB，图片下载到本地。 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：497 | 回复：0
wxhub: 微信公众号文章-无限制抓取

wxhub: 微信公众号文章-无限制抓取……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：730 | 回复：0
WeiboSpider: 分布式微博爬虫。抓取内容包括微博用户资料、微博信息、评论信息和转发 ...

WeiboSpider: 分布式微博爬虫。抓取内容包括微博用户资料、微博信息、评论信息和转发信息。目前专注于微博数据抓取本身，正在快速迭代。如果觉得有帮助，不妨到github上给我点个star，osc上可能不会再继续更新了 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：4472 | 回复：0
zhihu-crawler: zhihu-crawler是一个基于Java的爬虫实战项目，主要功能是抓取知乎用户 ...

zhihu-crawler: zhihu-crawler是一个基于Java的爬虫实战项目，主要功能是抓取知乎用户的基本资料。……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：1009 | 回复：0
YiSpider: 一款分布式爬虫平台，帮助你更好的管理和开发爬虫。内置一套爬虫定义规则 ...

YiSpider: 一款分布式爬虫平台，帮助你更好的管理和开发爬虫。内置一套爬虫定义规则（模版），可使用模版快速定义爬虫，也可当作框架手动开发爬虫……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：657 | 回复：0
CowSwing: 丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处 ...

CowSwing: 丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件，通过灵活的配置，可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息，可编辑筛选处理后选择发布到网站 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：533 | 回复：0
vscrawler: 适合抓取封堵的爬虫框架

vscrawler: 适合抓取封堵的爬虫框架……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：460 | 回复：0
WebCollector: A java crawler for infomation collection.

WebCollector: A java crawler for infomation collection.……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：386 | 回复：0
foot: foot是一个集足球数据采集器,简单分析的项目.AI足球球探为程序全自动处理,全程 ...

foot: foot是一个集足球数据采集器,简单分析的项目.AI足球球探为程序全自动处理,全程无人为参与干预足球分析足球预测程序.程序根据各大指数多维度数据,结合作者多年足球分析经验,精雕细琢,集天地之灵气,汲日月之精华 ...……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：387 | 回复：0
music-spider: 酷狗 + QQ + 百度 + 虾米 + 网易 = 橡皮音乐

music-spider: 酷狗 + QQ + 百度 + 虾米 + 网易 = 橡皮音乐……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：312 | 回复：0
examples-of-web-crawlers: 一些有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、 ...

examples-of-web-crawlers: 一些有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。……

作者：菜鸟教程小白 | 时间：2022-2-14 20:57 | 阅读：328 | 回复：0

1 2 3 45 / 5 页

客服电话

电子邮件

Web爬虫

关于我们

产品与服务

解决方案

139-2527-9053