• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

go-百度贴吧-纵向爬取

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

百度贴吧纵向爬取

上一个是横向爬取的,这个纵向爬取,具体怎么做的看代码

package main

import (
	"fmt"
	"io"
	"net/http"
	"os"
	"regexp"
	"strconv"
)

func HttpGetDB(url string) (result string, err error) {
	resp, err1 := http.Get(url)
	if err1 != nil {
		err = err1
		return
	}
	defer resp.Body.Close()

	buf := make([]byte, 4096)

	for {
		n, err2 := resp.Body.Read(buf)
		if n == 0 {
			break
		}
		if err2 != nil && err2 != io.EOF {
			err = err2
			return
		}
		result += string(buf[:n])
	}

	return
}

func Save2file(idx int, fileName [][]string) {
	path := "第" + strconv.Itoa(idx) + "页" + ".txt"
	f, err := os.Create(path)
	if err != nil {
		fmt.Println("os.Create err", err)
		return
	}
	defer f.Close()

	n := len(fileName)

	f.WriteString("名称\n")
	for i := 0; i < n; i++ {
		f.WriteString(fileName[i][1] + "\n")
	}
}

func SpiderPageDB(idx int, page chan int) {
	//	url := "https://movie.douban.com/review/best/?start=" + strconv.Itoa((idx-1)*20)
	//	url := "https://movie.douban.com/annual/2018?source=navigation#" + strconv.Itoa(idx-1)
	//	https://movie.douban.com/review/best/?start=20

	url := "https://tieba.baidu.com/f?kw=vue&ie=utf-8&pn=" + strconv.Itoa((idx-1)*50)

	result, err := HttpGetDB(url)
	if err != nil {
		fmt.Println("HttpGet2 err", err)
		return
	}
	//	fmt.Println("result=", result)
	ret := regexp.MustCompile(`<span class="tb_icon_author_rely j_replyer" title="最后回复人:(?s:(.*?))"`)
	fileName := ret.FindAllStringSubmatch(result, -1)
	//	for _, name := range fileName {
	//		fmt.Println("name", name[1])
	//	}
	Save2file(idx, fileName)

	page <- idx
}

func toWork(start, end int) {
	fmt.Printf("正在爬取%d到%d页。。。\n", start, end)

	page := make(chan int)
	for i := start; i <= end; i++ {
		go SpiderPageDB(i, page)
	}

	for i := start; i <= end; i++ {
		fmt.Print("第%d页爬取完成\n", <-page)
	}
}

func main() {
	var start, end int
	fmt.Print("请输入起始页(>=1):")
	fmt.Scan(&start)
	fmt.Print("请输入终止页(>=start):")
	fmt.Scan(&end)

	toWork(start, end)
}


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
go网络请求篇发布时间:2022-07-10
下一篇:
设计模式go语言实现----中介者模式mediator发布时间:2022-07-10
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap