基于PHP实现CMS识别

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

最近正在开发一款基于PHP实现的Web安全检测平台，写到了CMS识别这一功能，便写一篇文章总结一下。

首先需要梳理的是CMS识别的几种方法:

1.网页源代码特征：例如源代码中包含CMS的名称或是某种特定关键词。

2.路径/文件特征：例如DeDe织梦系统存在/dede/路径与advancedsearch.php文件。

3.版权信息特征：在网页底部的版权信息中往往会包含CMS信息，这种特征在我们接下来的编程中可以包含在"网页源代码特征"中。

4.robots.txt特征：部分CMS的robots.txt文件中会包含CMS信息，例如Discuz论坛系统。

除了这四种特征以外，还有其他的一些特征这里就不多阐述了，我们接下来就要围绕这4种特征来实现基于PHP的CMS识别功能。
在开始编程前，我们先根据4种特征来设计一下各自识别CMS的编程思路：

1.网页源代码特征：发送请求获取网页源码 -> 利用正则匹配关键词

2.路径/文件特征：发送请求获取HTTP状态码 -> 根据HTTP状态码判断路径/文件是否存在

3.版权信息特征：发送请求获取网页源码 -> 利用正则匹配关键词（与网页源代码特征编程思路相同）

4.robots.txt特征：发送请求获取HTTP状态码 -> 根据HTTP状态码判断robots.txt文件是否存在 -> 若存在则使用正则匹配关键词

以上便是4种特征的编程实现思路，同时，为了保证识别的准确性，我们需要对一个CMS添加多种识别方式，防止漏报或误报：

例如判断DeDe织梦系统时，我们除了可以依据robots.txt文件存在"Disallow: /plus/"这一关键词判断外，还可以检测源代码中是否存在"dedeajax"的关键词，只要满足以上任一条件即可判定为DeDe织梦系统。

下面开始编写我们的主要几个功能：

//获取HTTP状态码函数：
    function requests_code($url){
        $curl = curl_init();
        $header = array("Connection: Keep-Alive","Accept: text/html, application/xhtml+xml, */*", "Pragma: no-cache", "Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-US;q=0.5,en;q=0.3","User-Agent: Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; WOW64; Trident/6.0)");
        curl_setopt($curl, CURLOPT_URL, $url);
        curl_setopt($curl, CURLOPT_HEADER, 1);
        curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
        curl_setopt($curl,CURLOPT_NOBODY,true);
        curl_setopt($curl,CURLOPT_SSL_VERIFYPEER, false);
        curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        curl_exec($curl);
        $code = curl_getinfo($curl,CURLINFO_HTTP_CODE);
        curl_close($curl);
        return $code;
    }
 
//获取网页源代码正则匹配函数:
    function contents_match($url, $regex){
        $curl = curl_init();
        $header = array("Connection: Keep-Alive","Accept: text/html, application/xhtml+xml, */*", "Pragma: no-cache", "Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-US;q=0.5,en;q=0.3","User-Agent: Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; WOW64; Trident/6.0)");
        curl_setopt($curl, CURLOPT_URL,$url);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
        curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
        curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
        $data = curl_exec($curl);
        curl_close ($curl);
        if(preg_match($regex, $data)){
            return True;
        }else{
            return False;
        }
    }

以上两个功能我们使用自定义函数实现能使代码更加简介易懂，接下来我们开始编写不同CMS的识别策略：

    //Discuz论坛系统网站特征
    function dz($url){
        $regex = "/Discuz/i";
        if(contents_match($url, $regex)){  //网页源代码特征
            return True;
        }elseif(contents_match($url.'/robots.txt', $regex)){  //robots.txt文件特征
            return True;
        }else{
            return False;
        }
    }
 
    //ECshop网店商城系统网站特征
    function ecshop($url){
        $contents_regex = "/process_request/";
        $path = "/themes/default/images/logo.gif";
        if(contents_match($url, $contents_regex)){  //网页源代码特征
            return True;
        }else if(requests_code($url.$path) == 200){  //robots.txt文件特征
            return True;
        }else{
            return False;
        }
    }

这里就展示两种CMS的识别方式，如果对更多CMS识别有兴趣可以联系笔者一起交流。这样我们就实现了PHP识别CMS的核心程序，接下来只需要调用各个函数使用if语句判断即可，加上百万前端工程师的美化，文末展示一下最终的效果：

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

php毫秒时间戳发布时间：2022-07-10

PHP安全编程：主机文件目录浏览(转)发布时间：2022-07-10

MATLAB实现模糊控制

1 krishnaik06/Machine-Learning-in-90-days

krishnaik06/Machine-Learning-in-90-days

阅读：1115|2022-08-18

2 bazaarvoice/s3-upload-maven-plugin: Allo

bazaarvoice/s3-upload-maven-plugin: Allows you to upload a file to S3 from maven

阅读：842|2022-08-17

3 美元符号为什么是“$”

在美元的英文“dollar”里面明明没有字母“s”，为什么美元的符号($)是一条竖线穿过字

阅读：1117|2022-11-06

4 VCVRack/library: Database for the VCV Li

VCVRack/library: Database for the VCV Library

阅读：432|2022-08-14

5 微信小程序 Button控件点击传值给JavaScri

直接看例子吧： WXML：直接看Button,用“data-”（data-total）传值，后台如何获取，

阅读：812|2022-07-18

6 sydney0zq/covid-19-detection: The implem

sydney0zq/covid-19-detection: The implementation of A Weakly-supervised Framewor

阅读：519|2022-08-16

7 CVE-2022-20907

Multiple vulnerabilities in Cisco Nexus Dashboard could allow an authenticated,

阅读：622|2022-07-29

8 dustinstansbury/medal: Matlab Environmen

dustinstansbury/medal: Matlab Environment for Deep Architecture Learning

阅读：399|2022-08-17

9 长沙科技学院怎么样?是几本

长沙城南，有一所以“环保”为名的学校，从1979年创立以来，四易归属、五更其名。这

阅读：817|2022-11-06

10 jupyterlab/jupyterlab-latex: JupyterLab

jupyterlab/jupyterlab-latex: JupyterLab extension for live editing of LaTeX docu

阅读：602|2022-08-12

客服电话

电子邮件

基于PHP实现CMS识别

请发表评论

全部评论

上一篇：

下一篇：

matlab-GUI整理-图形处理

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

win7系统重装系统初始设置的操作方法

これがマストドンだ！使い方からインスタ

MATLAB实现模糊控制

kostub/iosMath: Beautiful math equation

CVE-2022-22212

pallet/zi: Maven plugin for clojure

CVE-2022-38625

jonathantribouharet/JTMaterialTransition

关于我们

产品与服务

解决方案

139-2527-9053

客服电话

电子邮件

基于PHP实现CMS识别

请发表评论

全部评论

上一篇：

下一篇：

matlab-GUI整理-图形处理

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

win7系统重装系统初始设置的操作方法

これがマストドンだ！ 使い方からインスタ

MATLAB实现模糊控制

kostub/iosMath: Beautiful math equation

CVE-2022-22212

pallet/zi: Maven plugin for clojure

CVE-2022-38625

jonathantribouharet/JTMaterialTransition

关于我们

产品与服务

解决方案

139-2527-9053

これがマストドンだ！使い方からインスタ