在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
版权声明:本文为博主原创文章,未经博主允许不得转载。 R语言中的rvest包是一个很容易入门的包,简单的学习即可入门,在此篇文章中,我将简单介绍一下本篇文章中rvest包中用到的主要的函数、爬取网页的基本步骤、一个完整的网页爬取步骤以及与rvest包结合使用的一款工具。 1.与R语言中的rvest包结合使用的工具:SelectorGadget。 SelectorGadget是一款开源工具,可以与谷歌浏览器结合使用,能够为复杂网站的元素生成CSS选择器,这款神器有助于我们快速找到html的节点信息(关于此工具的安装及使用可以参看我的另一篇博文,此处不再赘述)。 2.rvest包用到的主要函数 在此次爬取中,我们用到的函数主要有以下几个:
3.爬取网页的基本步骤:①获取网页的链接,代码为url=" " ; ②下载网页,代码:web<-read_html(url,encoding=" ");③提取自己想要的信息,如果是提取文本,一般代码为:name<-web%>%html_nodes(' ')%>%html_text();④提取链接:link<-web%>%html_nodes(' ')%>%html_attrs()。 4.以爬取当当网图书排名为例(在最后附录完整的代码)。 在这个案例中,我爬取了当当图书排行榜前500名的图书的排名、书名、作者、价格。因为代码类似,故在此我仅详细介绍如何爬取书的作者。 主要是获取节点信息。在谷歌浏览器中打开链接:http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1,进入到当当图书排行榜,然后点击谷歌工具SelectorGadget(如果安装以后就会在谷歌浏览器左上角出现一个放大镜的图标:,点击该图标即可)。然后我们爬取作者,就点击“作者”那一栏,则会出现如图一所示:但是我们发现这时候选取的不仅仅有作者,还有下面的出版社信息,则这时候我们需要再点击“出版社”那一栏,这样就不会再选中“出版社”那一栏,只会选择“作者”那一栏,这时候我们谷歌浏览器左下角就可以得到“作者”的节点信息。如图2所示 图一 图二 其余的节点信息都是这样得到的,下面附上全部代码:
这样就可以啦~不过本篇文章中没有涉及到链接的提取,提取链接以及爬取网页中注意的小问题我下一篇文章再来更~~
|
请发表评论