• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

go语言爬虫goquery和grequests的使用

原作者: [db:作者] 来自: [db:来源] 收藏 邀请
/*下载工具*/  
package main  
  
import (  
    "fmt"  
    //go语言版本的jquery  
    "github.com/PuerkitoBio/goquery"  
    "os"  
    "sync"  
    "strings"  
    //go语言版本的request  
    "github.com/levigross/grequests"  
    "time"  
    "strconv"  
)  
  
var wg sync.WaitGroup  
  
func main() {  
    now := time.Now()  
    initalUrls := []string{"http://www.zngirls.com/girl/18071/album/", }  
    for _, url := range initalUrls {  
        doc, err := goquery.NewDocument(url)  
        if err != nil {  
            fmt.Errorf("下载错误:%#v", err)  
            os.Exit(-1)  
        }  
  
        doc.Find(".igalleryli_link").Each(func(i int, s *goquery.Selection) {  
            src, exists := s.Find("img").Attr("src")  
            fmt.Printf("开始下载影集图片:%v\n", src)  
            if (exists) {  
                wg.Add(1)  
                go func(src string) {  
                    defer wg.Done()  
  
                    //下载图片  
                    //tryTimes := map[int]int  
                    n := 0  
                    s := strings.Replace(src, "cover/", "", 1)  
                    ss := strings.Split(s, "/")  
                    fm := strings.Join(ss[:len(ss) - 1], "/")  
                    sf0 := fm + "/%d.jpg"  
                    sfn := fm + "/%03d.jpg"  
  
                    for {  
                        //持续下载  
                        s := ""  
                        if n == 0 {  
                            s = fmt.Sprintf(sf0, n)  
                        } else {  
                            s = fmt.Sprintf(sfn, n)  
                        }  
  
                        fmt.Printf("准备下载: %v\n", s)  
                        res, _ := grequests.Get(s, &grequests.RequestOptions{  
                            //结构体可以对指定的类型给值,而不一定都赋值  
                            Headers:map[string]string{  
                                "Referer":"http://www.zngirls.com",  
                                "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"}})  
                        //条件需要修改,如果没有图片,返回的是盗链,图片4kb  
                        if res.StatusCode != 200 {  
                            fmt.Printf("下载失败,退出影集下载:%s\n", src)  
                            break  
                        }  
  
                        //图片可能是该网站,返回的盗链图片(4kb左右)  
                        length := res.Header.Get("Content-Length")  
                        slen,_ := strconv.Atoi(length)  
                        if slen < 4100{  
                            fmt.Printf("下载内容失败,退出影集下载:%s\n", src)  
                            break  
                        }  
  
                        index := strings.Index(s, "gallery")  
                        if index == -1 {  
                            fmt.Errorf("无效地址,找不到gallery关键词,解析失败:%s\n", src)  
                            return  
                        }  
  
                        ss2 := strings.Split(string(s[index:]), "/")  
                        dirname := strings.Join(ss2[:len(ss2) - 1], "/")  
                        if _, err := os.Stat(dirname); err != nil {  
                            fmt.Printf("创建下载文件夹:%s\n", dirname)  
                            os.MkdirAll(dirname, 0666)  
                        }  
  
                        filename := strings.Join(ss2, "/")  
                        res.DownloadToFile(filename)  
                        fmt.Printf("成功下载图片到:%s\n", filename)  
                        n++  
                    }  
                }(src)  
            }  
        })  
    }  
  
    wg.Wait()  
    //4M的带宽下载,需要16m36s,总大小202M,10个文件夹,560个文件  
    fmt.Printf("下载任务完成,耗时:%#v\n", time.Now().Sub(now))  
}  

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
Go交叉编译发布时间:2022-07-10
下一篇:
Go语言切片发布时间:2022-07-10
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap