PHPHTMLDOM解析器中文手册

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

快速入门

 //从一个URL或者文件创建一个DOM对象
$html = file_get_html('http://www.google.cn/');

// 寻找所有的img标签 
foreach($html->find('img') as $element) 
       echo $element->src . '<br>';

// 寻找所有的链接标签
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';

//从字符串创建一个DOM对象
$html = str_get_html('<div >World</div>

// 从HTML中提取内容(不包含标签)
echo file_get_html('http://www.google.com/')->plaintext; 

//从URL创建一个DOM对象
$html = file_get_html('http://slashdot.org/');

// 寻找所有的article块
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

如何创建HTML DOM 对象？

Top

//从字符串创建一个DOM对象
$html = str_get_html('<html><body>Hello!</body></html>');

//从一个URL创建一个DOM对象
$html = file_get_html('http://www.google.com/');

//从一个HTML文件创建一个DOM对象
$html = file_get_html('test.htm');

//创建一个DOM对象
$html = new simple_html_dom();

//从字符串中载入HTML
$html->load('<html><body>Hello!</body></html>');

//从URL中载入HTML 
$html->load_file('http://www.google.cn/');

//从文件中载入HTML 
$html->load_file('test.htm'); 
//输出 
echo $html;

如何查找HTML元素?

Top

// 查找所有的锚, 返回一个元素对象数组
$ret = $html->find('a');

//查找第N个 锚, 返回元素对象或者当找不到时返回null (从零开始)
$ret = $html->find('a', 0);

//查找最后一个 锚, 返回元素对象或者当找不到时返回null (从零开始)
$ret = $html->find('a', -1); 

//通过id属性 查找所有的<div>
$ret = $html->find('div[id]');

// 查找所有属性id=foo的<div>标签
$ret = $html->find('div[id=foo]'); 

//查找所有id=foo的元素
$ret = $html->find('#foo');

//查找所有class=foo的元素
$ret = $html->find('.foo');

//查找所有包含id属性的的元素
$ret = $html->find('*[id]'); 

//查找所有的锚与图片
$ret = $html->find('a, img'); 

//查找所有包含title属性的锚与图片
$ret = $html->find('a[title], img[title]');

在属性过滤器中支持如下运算符:

过滤器
描述

[属性]
匹配包含指定属性的元素.

[!属性]
匹配不包含指定属性的元素.

[属性=value]
匹配等于特定值的指定属性的元素.

[属性!=value]
匹配除包含特定值的指定属性之外的元素

[属性^=value]
匹配包含特定前缀的值的指定属性的元素.

[属性$=value]
匹配包含特定后缀的值的指定属性的元素.

[属性*=value]
匹配包含特定值的指定属性的元素..

//在<ul>中查找所有的<li>后代
$es = $html->find('ul li');

//查找所有的<div>嵌套标签
$es = $html->find('div div div'); 

//在<table>中查找所有的class=hello的<td>后代 
$es = $html->find('table.hello td');

//在table标签中查找所有属性align=center的td
$es = $html->find(''table td[align=center]');

//查找所有的text区块
$es = $html->find('text');

//查找所有的comment (<!--...-->)区块
$es = $html->find('comment');

//在<ul>中查找所有的<li>
foreach($html->find('ul') as $ul) 
{
       foreach($ul->find('li') as $li) 
       {
             //在这里执行操作...
       }
}

//在第一个<ul>中查找第一个<li> 
$e = $html->find('ul', 0)->find('li', 0);

如何访问HTML元素的属性?

Top

// 获取属性(如果是一个空值属性(例如. checked, selected...这些属性),则返回true或者false)
$value = $e->href;

// 设置属性(如果是一个空值属性(例如. checked, selected...这些属性),则让值等于true或者false)
$e->href = 'my link';

// 删除属性,让其值为空! 
$e->href = null;

// 确定某个属性是否存在? 
if(isset($e->href)) 
        echo 'href exist!';

// 列子
$html = str_get_html("<div>foo <b>bar</b></div>"); 
$e = $html->find("div", 0);

echo $e->tag; // 返回: " div"
echo $e->outertext; // 返回: " <div>foo <b>bar</b></div>"
echo $e->innertext; // 返回: " foo <b>bar</b>"
echo $e->plaintext; // 返回: " foo bar"

属性名
用法

$e->tag

Read or write the tag name of element.

$e->outertext

Read or write the outer HTML text of element.

$e->innertext

Read or write the inner HTML text of element.

$e->plaintext

Read or write the plain text of element.

// Extract contents from HTML 
echo $html->plaintext;

// Wrap a element
$e->outertext = '<div class="wrap">' . $e->outertext . '<div>';

// Remove a element, set it's outertext as an empty string 
$e->outertext = '';

// Append a element
$e->outertext = $e->outertext . '<div>foo<div>';

// Insert a element
$e->outertext = '<div>foo<div>' . $e->outertext;

如何遍历DOM树?

Top

//如果你不是很熟悉HTML DOM,那么请点击这个链接查看更多资料... 

//列子
echo $html->find("#div1", 0)->children(1)->children(1)->children(2)->id;
//或者 
echo $html->getElementById("div1")->childNodes(1)->childNodes(1)->childNodes(2)->getAttribute('id');

你也可以使用骆驼命名法调用.

方法
描述

mixed

$e->children ( [int $index] )
Returns the Nth child object if index is set, otherwise return an array of children.

element

$e->parent ()
Returns the parent of element.

element

$e->first_child ()
Returns the first child of element, or null if not found.

element

$e->last_child ()
Returns the last child of element, or null if not found.

element

$e->next_sibling ()
Returns the next sibling of element, or null if not found.

element

$e->prev_sibling ()
Returns the previous sibling of element, or null if not found.

如何储存DOM对象中的内容?

Top

// 将DOM树中的内容储存在字符串中
$str = $html->save();

//将DOM树中的内容储存在文件中 
$html->save('result.htm');

// 将DOM树中的内容储存在字符串中 
$str = $html;

//打印输出!
echo $html; 

如何自定义解析器方法？

Top

Callback 函数

//创建一个带有"$element"参数的函数
function my_callback($element) {
        //隐藏所有的<b>标签
        if ($element->tag=='b')
                $element->outertext = '';
} 

//用它的函数名注册callback函数
$html->set_callback('my_callback');

//当输出时就会引用Callback函数
echo $html;

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

在CentOS安装PHP5.6发布时间：2022-07-10

PHP统计中文字符串的长度发布时间：2022-07-10

librespeed/speedtest: Self-hosted Speedt

matlab 曲线属性设置

2022-07-18

avehtari/BDA_m_demos: Bayesian Data Anal

2022-08-17

四维彩超怎么看性别？四维看男孩女孩诀窍

2022-11-06

medfreeman/markdown-it-toc-and-anchor: m

2022-08-18

sydney0zq/covid-19-detection: The implem

2022-08-16

阅读排行榜

1 CVE-2022-22453

IBM Security Verify Identity Manager 10.0 uses weaker than expected cryptographi

阅读：675|2022-07-29

2 alura-cursos/kotlin-funcional: Projeto p

alura-cursos/kotlin-funcional: Projeto para o curso de Kotlin funcional

阅读：588|2022-08-13

3 bradtraversy/iweather: Ionic 3 mobile we

bradtraversy/iweather: Ionic 3 mobile weather app

阅读：1650|2022-08-30

4 joaomh/curso-de-matlab

joaomh/curso-de-matlab

阅读：1211|2022-08-17

5 断牙刷新位置时间（断牙属性及刷新位置介绍

魔兽世界怀旧服已经开启两个多月了，但作为一个猎人玩家，抓到“断牙”，已经成为了一

阅读：1066|2022-11-06

6 rugk/mastodon-simplified-federation: Sim

rugk/mastodon-simplified-federation: Simplifies following and interacting with r

阅读：1133|2022-08-17

7 Tangshitao/Dense-Scene-Matching: Learnin

Tangshitao/Dense-Scene-Matching: Learning Camera Localization via Dense Scene Ma

阅读：821|2022-08-16

8 Stericson/RootTools: RootTools Library

Stericson/RootTools: RootTools Library

阅读：529|2022-08-15

9 Respring是什么意思?没有越狱设备如何 Resp

相信不少果粉在对自己的设备进行某些操作时，都会碰到Respring，但这个 Respring 到底

阅读：388|2022-11-06

10 lightningtgc/MProgress.js: Material Prog

lightningtgc/MProgress.js: Material Progress —Google Material Design Progress l

阅读：431|2022-08-17

客服电话

电子邮件

PHPHTMLDOM解析器中文手册

目录

快速入门

如何创建HTML DOM 对象？

如何查找HTML元素?

如何访问HTML元素的属性?

如何遍历DOM树?

如何储存DOM对象中的内容?

如何自定义解析器方法？

请发表评论

全部评论

上一篇：

下一篇：

bluegill/katana:

CVE-2022-27105

OpenNBS/OpenNoteBlockStudio: An open-sou

juleswhite/mobilecloud-15: Programming C

朱衣点头是什么意思?朱衣点头成语故事

librespeed/speedtest: Self-hosted Speedt

matlab 曲线属性设置

avehtari/BDA_m_demos: Bayesian Data Anal

四维彩超怎么看性别？四维看男孩女孩诀窍

medfreeman/markdown-it-toc-and-anchor: m

sydney0zq/covid-19-detection: The implem

关于我们

产品与服务

解决方案

139-2527-9053