• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

go一个简单的爬虫(豆瓣)

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

最近在学习go语言爬虫,写了个小demo

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"regexp"
	"strconv"
)

type Movie struct {
	name   string
	mark   string
	person string
	time   string
	url    string
}

func main() {
	chs := make([] chan int, 10)
	sliceList := []int{1291841,26761416,1309220,1300741,1293172}
	for i,v:=range sliceList{
		go child(v, chs[i])
	}
	for _, ch := range chs {
		<-ch
	}
}

func child(id int, ch chan int) {
	url := "https://movie.douban.com/subject/" + strconv.Itoa(id) + "/"
	resp, err := http.Get(url)
	if err != nil {
		panic(err)
	}
	defer resp.Body.Close()
	sHtml, _ := ioutil.ReadAll(resp.Body)

	movie := new(Movie)

	movie.name = GetValue(`<span\s*property="v:itemreviewed">(.*)</span>`, &sHtml)
	movie.mark = GetValue(`<strong\s*class="ll\s*rating_num"\s*property="v:average">(.*)</strong>`, &sHtml)
	movie.person = GetValue(`<a href="/celebrity/[0-9]+/" rel="v:directedBy">(.*)</a>`, &sHtml)
	movie.time = GetValue(`<span property="v:runtime" content="(.*)">.*</span>`, &sHtml)
	movie.url = GetValue(`<a href="(.*)" target="_blank" rel="nofollow">.*</a>`, &sHtml)

	fmt.Println(movie)

	ch <- 1
}

func GetValue(rule string, sHtml *[] byte) string {
	reg := regexp.MustCompile(rule)
	result := reg.FindAllStringSubmatch(string(*sHtml), 1)
	return result[0][1]
}

  


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
CF865C Gotta Go Fast发布时间:2022-07-10
下一篇:
性能优化 | Go Ballast 让内存控制更加丝滑发布时间:2022-07-10
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap