1.简单爬取一个网页
url<-“http://hz.house.ifeng.com/detail/2014_10_28/50087618_1.shtml”
tbls<-readHTMLTable(url)
sapply(tbls,nrow)
NULL NULL
93 8
pop<-readHTMLTable(url,which = 1) #存储pop为CSV文档
write.csv(pop,file=”F:/pop.csv”)
2.爬取当当网图书排名及价格
library(xml2)
library(dplyr)
library(dplyr)
library(stringr)) #对爬取网页进行设定并创建数据框
i<-1:25
book_order<-data.frame() #使用for循环进行批量数据爬取
for(i in 1:25){
+ web<-read_html(str_c(“http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-“,i),encoding=”gbk”) #爬取书的排名,html_nodes从网页上选择节点,括号内的节点可以使用 #SelectorGadget工具得到谷歌上的网页节点,html_text()用于提取网页上的信息
+ book_rank<-web%>%html_nodes(‘.list_num’)%>%html_text() #爬取书的名字
+ book_name<-web%>%html_nodes(‘.name a’)%>%html_text() #爬取书的作者
+ book_author<-web%>%html_nodes(‘.star+ .publisher_info’)%>%html_text() #爬取书的价格
+ book_price<-web%>%html_nodes(‘p:nth-child(1) .price_n’)%>%html_text() #创建数据框并存储以上信息
+ book<-data_frame(book_rank,book_name,book_author,book_price)
+ book_order<-rbind(book_order,book)
+ } #将数据写入csv文档
write.csv(book_order,file=”F:/R语言爬虫/book_order.csv”)
3.爬取招聘网站信息(用RStudio软件实现的)
3.1抓取一个页面
library(“rvest”)
library(“stringr”)#用于去除多余字符 #获取网址
url0<-“https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E6%258C%2596%25E6%258E%2598,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=” #读取网页信息
web<-read_html(url0) #获取工作名称
title<-web %>% html_nodes(‘div.el p.t1 span’) %>% html_text() #去除title中的空格和换行符,只保留文字
title_extr<-function(x){return(str_extract(x,’[^\r\n| ]+’))}
title<-title_extr(title) #获取公司名
company<-web %>% html_nodes(‘div.el span.t2’) %>% html_text() #去除第一行“公司名”,使company的行数与title的行数一致
company<-company[2:length(company)] #工作地点
location<-company<-web %>% html_nodes(‘div.el span.t3’) %>% html_text()
location<-location[2:length(location)] #工资
salary<-web %>% html_nodes(‘div.el span.t4’) %>% html_text()
salary<-salary[2:length(salary)] #发布时间
Time<-web %>% html_nodes(‘div.el span.t5’) %>% html_text()
Time<-time[2:length(Time)]
data<-data.frame(title,company,location,salary,Time)
names(data)<-c(“工作名称”,”公司名”,”工作地点”,”工资”,”发布时间”)
data
write.csv(data,file=”F:/R语言爬虫/zhaopin.csv”)
3.2爬取多个页面
library(“rvest”)#用于抓取网页
library(“stringr”)#用于去除没用的字符或空格 #获取网址
url0<-“https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E6%258C%2596%25E6%258E%2598,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=”
link<-list()
dat<-data.frame() #计数器
n<-0 #加载下一页的网址
download_url<-function(url)
{
web<-read_html(url0)
link.next<-web %>% html_nodes(‘div.p_in li.bk a’) %>% html_attrs()
return(link.next)
} #将函数封装起来
download_data<-function(url)
{
#读取网页信息
web<-read_html(url0)
#获取工作名称
title<-web %>% html_nodes(‘div.el p.t1 span’) %>% html_text()
#去除title中的空格和换行符,只保留文字
title_extr<-function(x){return(str_extract(x,’[^\r\n| ]+’))}
title<-title_extr(title)
#获取公司名
company<-web %>% html_nodes(‘div.el span.t2’) %>% html_text()
#去除第一行“公司名”,使company的行数与title的行数一致
company<-company[2:length(company)]
#获取工作地点
location<-web %>% html_nodes(‘div.el span.t3’) %>% html_text()
location<-location[2:length(location)]
#获取工资
salary<-web %>% html_nodes(‘div.el span.t4’) %>% html_text()
salary<-salary[2:length(salary)]
#获取发布时间
Time<-web %>% html_nodes(‘div.el span.t5’) %>% html_text()
Time<-Time[2:length(Time)]
return(data.frame(title,company,location,salary,Time))
}
link[[1]]<-(url0)#获取第一个网址
for(i in 2:5)
{
link[[i]]<-download_url(link[[i-1]])#获取2:5的网址
}
for(i in c(1:5))
{
if(i==1)
data<-download_data(link[i])#获取每一个页面的数据
else
#data里面有数据了,就可以直接进行数据框的拼接
data<-rbind(data,download_data(link[[i]]))
}
names(data)<-c(“工作名称”,”公司名”,”工作地点”,”工资”,”发布时间”)#对数据的表头重命名
write.csv(data,file=”F:/R语言爬虫/zhaopin1.csv”)#将数据读入csv文件
如图:
|
请发表评论