RollingcURL:PHP并发最佳实践

设为首页
点击收藏
手机版

手机扫一扫访问
迪恩网络手机版
关注官方公众号

微信扫一扫关注
公众号

登陆注册

快速发帖
客服电话

点击联系客服
在线时间：8:00-16:00

客服电话

132-9538-2358

电子邮件
[email protected]
APP下载

迪恩网络APP

随时随地掌握行业动态
官方微信

扫描二维码

关注迪恩网络微信公众号
问题反馈
返回顶部

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

Rolling cURL: PHP并发最佳实践

在实际项目或者自己编写小工具(比如新闻聚合,商品价格监控,比价)的过程中, 通常需要从第3方网站或者API接口获取数据, 在需要处理1个URL队列时, 为了提高性能, 可以采用cURL提供的curl_multi_*族函数实现简单的并发.

本文将探讨两种具体的实现方法, 并对不同的方法做简单的性能对比.

1. 经典cURL并发机制及其存在的问题

经典的cURL实现机制在网上很容易找到, 比如参考PHP在线手册的如下实现方式:

01

function classic_curl($urls, $delay) {

02

    $queue = curl_multi_init();

03

    $map = array();

04

05

    foreach ($urls as $url) {

06

        // create cURL resources

07

        $ch = curl_init();

08

09

        // set URL and other appropriate options

10

        curl_setopt($ch, CURLOPT_URL, $url);

11

12

        curl_setopt($ch, CURLOPT_TIMEOUT, 1);

13

        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

14

        curl_setopt($ch, CURLOPT_HEADER, 0);

15

        curl_setopt($ch, CURLOPT_NOSIGNAL, true);

16

17

        // add handle

18

        curl_multi_add_handle($queue, $ch);

19

        $map[$url] = $ch;

20

    }

21

22

    $active = null;

23

24

    // execute the handles

25

    do {

26

        $mrc = curl_multi_exec($queue, $active);

27

    } while ($mrc == CURLM_CALL_MULTI_PERFORM);

28

29

    while ($active > 0 && $mrc == CURLM_OK) {

30

        if (curl_multi_select($queue, 0.5) != -1) {

31

            do {

32

                $mrc = curl_multi_exec($queue, $active);

33

            } while ($mrc == CURLM_CALL_MULTI_PERFORM);

34

        }

35

    }

36

37

    $responses = array();

38

    foreach ($map as $url=>$ch) {

39

        $responses[$url] = callback(curl_multi_getcontent($ch), $delay);

40

        curl_multi_remove_handle($queue, $ch);

41

        curl_close($ch);

42

    }

43

44

    curl_multi_close($queue);

45

    return $responses;

46
}

首先将所有的URL压入并发队列, 然后执行并发过程, 等待所有请求接收完之后进行数据的解析等后续处理. 在实际的处理过程中, 受网络传输的影响, 部分URL的内容会优先于其他URL返回, 但是经典cURL并发必须等待最慢的那个URL返回之后才开始处理, 等待也就意味着CPU的空闲和浪费. 如果URL队列很短, 这种空闲和浪费还处在可接受的范围, 但如果队列很长, 这种等待和浪费将变得不可接受.

2. 改进的Rolling cURL并发方式

仔细分析不难发现经典cURL并发还存在优化的空间, 优化的方式时当某个URL请求完毕之后尽可能快的去处理它, 边处理边等待其他的URL返回, 而不是等待那个最慢的接口返回之后才开始处理等工作, 从而避免CPU的空闲和浪费. 闲话不多说, 下面贴上具体的实现:

01

function rolling_curl($urls, $delay) {

02

    $queue = curl_multi_init();

03

    $map = array();

04

05

    foreach ($urls as $url) {

06

        $ch = curl_init();

07

08

        curl_setopt($ch, CURLOPT_URL, $url);

09

        curl_setopt($ch, CURLOPT_TIMEOUT, 1);

10

        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

11

        curl_setopt($ch, CURLOPT_HEADER, 0);

12

        curl_setopt($ch, CURLOPT_NOSIGNAL, true);

13

14

        curl_multi_add_handle($queue, $ch);

15

        $map[(string) $ch] = $url;

16

    }

17

18

    $responses = array();

19

    do {

20

        while (($code = curl_multi_exec($queue, $active)) == CURLM_CALL_MULTI_PERFORM) ;

21

22

        if ($code != CURLM_OK) { break; }

23

24

        // a request was just completed -- find out which one

25

        while ($done = curl_multi_info_read($queue)) {

26

27

            // get the info and content returned on the request

28

            $info = curl_getinfo($done['handle']);

29

            $error = curl_error($done['handle']);

30

            $results = callback(curl_multi_getcontent($done['handle']), $delay);

31

            $responses[$map[(string) $done['handle']]] = compact('info', 'error', 'results');

32

33

            // remove the curl handle that just completed

34

            curl_multi_remove_handle($queue, $done['handle']);

35

            curl_close($done['handle']);

36

        }

37

38

        // Block for data in / output; error handling is done by curl_multi_exec

39

        if ($active > 0) {

40

            curl_multi_select($queue, 0.5);

41

        }

42

43

    } while ($active);

44

45

    curl_multi_close($queue);

46

    return $responses;

47
}

3. 两种并发实现的性能对比

改进前后的性能对比试验在LINUX主机上进行, 测试时使用的并发队列如下:

简要说明下实验设计的原则和性能测试结果的格式: 为保证结果的可靠, 每组实验重复20次, 在单次实验中, 给定相同的接口URL集合, 分别测量Classic(指经典的并发机制)和Rolling(指改进后的并发机制)两种并发机制的耗时(秒为单位), 耗时短者胜出(Winner), 并计算节省的时间(Excellence, 秒为单位)以及性能提升比例(Excel. %). 为了尽量贴近真实的请求而又保持实验的简单, 在对返回结果的处理上只是做了简单的正则表达式匹配, 而没有进行其他复杂的操作. 另外, 为了确定结果处理回调对性能对比测试结果的影响, 可以使用usleep模拟现实中比较负责的数据处理逻辑(如提取, 分词, 写入文件或数据库等).

性能测试中用到的回调函数为:

1

function callback($data, $delay) {

2

    preg_match_all('/<h3>(.+)<\/h3>/iU', $data, $matches);

3

    usleep($delay);

4

    return compact('data', 'matches');

5
}

数据处理回调无延迟时: Rolling Curl略优, 但性能提升效果不明显.

------------------------------------------------------------------------------------------------
Delay: 0 micro seconds, equals to 0 milli seconds
------------------------------------------------------------------------------------------------
Counter         Classic         Rolling         Winner          Excellence      Excel. %
------------------------------------------------------------------------------------------------
1               0.1193          0.0390          Rolling         0.0803          67.31%
2               0.0556          0.0477          Rolling         0.0079          14.21%
3               0.0461          0.0588          Classic         -0.0127         -21.6%
4               0.0464          0.0385          Rolling         0.0079          17.03%
5               0.0534          0.0448          Rolling         0.0086          16.1%
6               0.0540          0.0714          Classic         -0.0174         -24.37%
7               0.0386          0.0416          Classic         -0.0030         -7.21%
8               0.0357          0.0398          Classic         -0.0041         -10.3%
9               0.0437          0.0442          Classic         -0.0005         -1.13%
10              0.0319          0.0348          Classic         -0.0029         -8.33%
11              0.0529          0.0430          Rolling         0.0099          18.71%
12              0.0503          0.0581          Classic         -0.0078         -13.43%
13              0.0344          0.0225          Rolling         0.0119          34.59%
14              0.0397          0.0643          Classic         -0.0246         -38.26%
15              0.0368          0.0489          Classic         -0.0121         -24.74%
16              0.0502          0.0394          Rolling         0.0108          21.51%
17              0.0592          0.0383          Rolling         0.0209          35.3%
18              0.0302          0.0285          Rolling         0.0017          5.63%
19              0.0248          0.0553          Classic         -0.0305         -55.15%
20              0.0137          0.0131          Rolling         0.0006          4.38%
------------------------------------------------------------------------------------------------
Average         0.0458          0.0436          Rolling         0.0022          4.8%
------------------------------------------------------------------------------------------------
Summary: Classic wins 10 times, while Rolling wins 10 times

数据处理回调延迟5毫秒: Rolling Curl完胜, 性能提升40%左右.

------------------------------------------------------------------------------------------------
Delay: 5000 micro seconds, equals to 5 milli seconds
------------------------------------------------------------------------------------------------
Counter         Classic         Rolling         Winner          Excellence      Excel. %
------------------------------------------------------------------------------------------------
1               0.0658          0.0352          Rolling         0.0306          46.5%
2               0.0728          0.0367          Rolling         0.0361          49.59%
3               0.0732          0.0387          Rolling         0.0345          47.13%
4               0.0783          0.0347          Rolling         0.0436          55.68%
5               0.0658          0.0286          Rolling         0.0372          56.53%
6               0.0687          0.0362          Rolling         0.0325          47.31%
7               0.0787          0.0337          Rolling         0.0450          57.18%
8               0.0676          0.0391          Rolling         0.0285          42.16%
9               0.0668          0.0351          Rolling         0.0317          47.46%
10              0.0603          0.0317          Rolling         0.0286          47.43%
11              0.0714          0.0350          Rolling         0.0364          50.98%
12              0.0627          0.0215          Rolling         0.0412          65.71%
13              0.0617          0.0401          Rolling         0.0216          35.01%
14              0.0721          0.0226          Rolling         0.0495          68.65%
15              0.0701          0.0428          Rolling         0.0273          38.94%
16              0.0674          0.0352          Rolling         0.0322          47.77%
17              0.0452          0.0425          Rolling         0.0027          5.97%
18              0.0596          0.0366          Rolling         0.0230          38.59%
19              0.0679          0.0480          Rolling         0.0199          29.31%
20              0.0657          0.0338          Rolling         0.0319          48.55%
------------------------------------------------------------------------------------------------
Average         0.0671          0.0354          Rolling         0.0317          47.24%
------------------------------------------------------------------------------------------------
Summary: Classic wins 0 times, while Rolling wins 20 times

通过上面的性能对比, 在处理URL队列并发的应用场景中Rolling cURL应该是更加的选择, 并发量非常大(1000+)时, 可以控制并发队列的最大长度, 比如20, 每当1个URL返回并处理完毕之后立即加入1个尚未请求的URL到队列中, 这样写出来的代码会更加健壮, 不至于并发数太大而卡死或崩溃. 详细的实现请参考: http://code.google.com/p/rolling-curl/

5. 参考资料和延伸阅读

Client URL Library http://www.php.net/manual/en/book.curl.php
Parallel CURL Requests with PHP http://blog.rob.cx/multi-curl
A more efficient multi-curl library for PHP (non-blocking) http://code.google.com/p/rolling-curl/
PHP: Parallel cURL Performance http://stackoverflow.com/questions/10485199/php-parallel-curl-performance-rollingcurl-vs-parallelcurl

文章出处：http://www.searchtb.com/2012/06/rolling-curl-best-practices.html

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

PHP系统左侧菜单栏的管理与实现发布时间：2022-07-10

phpimagick文字居中的方法发布时间：2022-07-10

万里平台南通会场

1 CVE-2020-28459

This affects all versions of package markdown-it-decorate. An attacker can add a

阅读：607|2022-07-29

2 kostub/iosMath: Beautiful math equation

kostub/iosMath: Beautiful math equation rendering on iOS and MacOS

阅读：1004|2022-08-18

3 iqiukp/KPCA-MATLAB: MATLAB code for dime

iqiukp/KPCA-MATLAB: MATLAB code for dimensionality reduction, feature extraction

阅读：519|2022-08-17

4 mkyong/spring3-mvc-maven-annotation-hell

mkyong/spring3-mvc-maven-annotation-hello-world: Maven + Spring 3 MVC hello worl

阅读：819|2022-08-17

5 CVE-2022-38625

** DISPUTED ** Patlite NH-FB v1.46 and below was discovered to contain insuffici

阅读：1148|2022-09-18

6 微信小程序公告滚动通知 - 子钦加油

微信小程序实现上下滚动消息提醒，主要是利用swiper组件来实现，swiper组件在小程序中

阅读：1211|2022-07-18

7 lizhuohua/linux-kernel-module-rust

lizhuohua/linux-kernel-module-rust

阅读：535|2022-08-15

8 cmaas/markdown-it-table-of-contents: A t

cmaas/markdown-it-table-of-contents: A table of contents plugin for Markdown-it

阅读：721|2022-08-18

9 CVE-2022-30624

Browsing the admin.html page allows the user to reset the admin password. Also a

阅读：664|2022-07-29

10 hackl/tikz-network: A tool to visualize

hackl/tikz-network: A tool to visualize complex networks in LaTeX

阅读：664|2022-08-12

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服（服务时间 9:00～18:00）

在线QQ客服

地址：深圳市南山区西丽大学城创智工业园

电邮：jeky_zhao#qq.com

移动电话：139-2527-9053

客服电话

电子邮件

RollingcURL:PHP并发最佳实践

Rolling cURL: PHP并发最佳实践

1. 经典cURL并发机制及其存在的问题

2. 改进的Rolling cURL并发方式

3. 两种并发实现的性能对比

5. 参考资料和延伸阅读

请发表评论

全部评论

上一篇：

下一篇：

bradtraversy/iweather: Ionic 3 mobile we

Delphi的类方法不是静态方法

joaomh/curso-de-matlab

断牙刷新位置时间（断牙属性及刷新位置介绍

纸的笔顺,了解纸的笔画,解析纸的部首

万里平台南通会场

dphi-official/Machine_Learning_Bootcamp

微信小程序使用echarts/数据刷新重新渲染/

tianli/matlab_offscreen: Matlab offscree

win7系统注册表编辑器打开的操作方法

raichen/LinuxServerCodes: Linux高性能服

关于我们

产品与服务

解决方案

139-2527-9053