一个很好的php分词类库

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

一位网友推荐了SCWS分词系统，看着挺不错，在这里记一下。

最近做实验，苦于php分词的问题，从网上找了很多，但都不行，导致试验结果不是很好，今天早晨抱着不放弃的努力，又试着重网上找开源的php分词词库，终于功夫不负有心人。

发现了一个很好的分词类库phpanalysis2.0。

原文连接地址:http://www.phpbone.com/phpanalysis/

分词系统简介：PHPAnalysis分词程序使用居于unicode的词库，使用反向匹配模式分词，理论上兼容编码更广泛，并且对utf-8编码尤为方便。由于PHPAnalysis是无组件的系统，因此速度会比有组件的稍慢，不过在大量分词中，由于边分词边完成词库载入，因此内容越多，反而会觉得速度越快，这是正常现象，PHPAnalysis的词库是用一种类似哈希(Hash)的数据结构进行存储的，因此对于比较短的字符串分词，只需要占极小的资源，比那种一次性载入所有词条的实际性要高得多，并且词库容量大小不会影响分词执行的速度。
PHPAnalysis分词系统是基于字符串匹配的分词方法进行分词的，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：
1）正向最大匹配法（由左到右的方向）；
2）逆向最大匹配法（由右到左的方向）；
3）最少切分（使每一句中切出的词数最小）。
还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。另一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。
PHPAnalysis分词先对需要分词的词进行粗分，然后对粗分的短句子进行二次逆向最大匹配法(RMM)的方法进行分词，分词后对分词结果进行优化，然后才得到最终的分词结果。

PHPAnalysis类API文档

一、比较重要的成员变量
$resultType   = 1        生成的分词结果数据类型(1 为全部， 2为 词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐
二、主要成员函数列表
1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='') 
函数说明：构造函数
参数列表：
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典（此参数已经作废）
$source              源字符串
如果输入输出都是utf-8，实际上可以不必使用任何参数进行初始化，而是通过 SetSource 方法设置要操作的文本
2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明：设置源字符串
参数列表：
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值：bool
3、public function StartAnalysis($optimize=true)
函数说明：开始执行分词操作
参数列表：
$optimize            分词后是否尝试优化结果
返回值：void
一个基本的分词过程：
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////
4、public function SetResultType( $rstype )
函数说明：设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为：
1 为全部， 2为 词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文
返回值：void
5、public function GetFinallyKeywords( $num = 10 )
函数说明：获取出现频率最高的指定词条数（通常用于提取文档关键字）
参数列表：
$num = 10  返回词条个数
返回值：用","分隔的关键字列表
6、public function GetFinallyResult($spword=' ')
函数说明：获得最终分词结果
参数列表：
$spword    词条之间的分隔符
返回值：string
7、public function GetSimpleResult()
函数说明：获得粗分结果
返回值：array
8、public function GetSimpleResultAll()
函数说明：获得包含属性信息的粗分结果
属性（1中文词句、2 ANSI词汇（包括全角），3 ANSI标点符号（包括全角），4数字（包括全角），5 中文标点或无法识别字符）
返回值：array
9、public function GetFinallyIndex()
函数说明：获取hash索引数组
返回值：array('word'=>count,...) 按出现频率排序
10、public function MakeDict( $source_file, $target_file='' )
函数说明：把文本文件词库编译成词典
参数列表：
$source_file   源文本文件
$target_file   目标文件(如果不指定，则为当前词典)
返回值：void
11、public function ExportDict( $targetfile )
函数说明：导出当前词典全部词条为文本文件
参数列表：
$targetfile  目标文件
返回值：void


测试代码：

<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
<title>test</title>
</head>
<body>
<?php
  require_once 'phpanalysis2.0/phpanalysis.class.php';
  $pa=new PhpAnalysis();
  $pa->SetSource("PHPAnalysis分词系统是基于字符串匹配的分词方法进行分词的，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配 和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与 标注相结合的一体化方法。常用的几种机械分词方法如下： ");
  $pa->resultType=2;
  $pa->differMax=true;
  $pa->StartAnalysis();
  $arr=$pa->GetFinallyIndex();
  echo "<pre>";
  print_r($arr);
  echo "</pre>";
  
?>
</body>
</html>

效果如下：

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

php实现文件上传进度条发布时间：2022-07-12

php中require、require_once、include、include_once类库重复引入效率问题详解 ...发布时间：2022-07-12

solegalli/feature-selection-for-machine-

1 ewiger/mlab: Mlab is a high-level python

ewiger/mlab: Mlab is a high-level python to Matlab® bridge that lets Matlab loo

阅读：459|2022-08-17

2 7个非常好的免费Delphi组件集(转)

你是否在寻找一些免费且多功能的Delphi组件为你的程序添加更强的功能？不用再寻找了，

阅读：1036|2022-07-18

3 IvonaTau/emotionaldan: Deep Neural Netwo

IvonaTau/emotionaldan: Deep Neural Network for joint emotion classification and

阅读：614|2022-08-16

4 Edditoria/notepad-plus-plus-localization

Edditoria/notepad-plus-plus-localization-hong-kong: Hong Kong Cantonese localiza

阅读：376|2022-08-15

5 我的笔顺,分享我的笔画,诠释我的部首

我的笔顺是什么？我的笔顺笔画顺序怎么写？还有我的拼音及意思是什么，好多初学练字者

阅读：358|2022-11-06

6 square/bazel_maven_repository: A bazel r

square/bazel_maven_repository: A bazel ruleset creating a more idiomatic bazel r

阅读：786|2022-08-17

7 工商年报和税务年报是什么意思?

工商年报、企业所得税汇算清缴如期而至，又到了每年会计最忙的时节了。工商及税务机关

阅读：1091|2022-07-30

8 CVE-2022-20903

Multiple vulnerabilities in the web-based management interface of Cisco Small Bu

阅读：590|2022-07-29

9 danipascual/GNSS-matlab: Matlab codes to

danipascual/GNSS-matlab: Matlab codes to generate GNSS PRNs, secondary codes, da

阅读：753|2022-08-17

10 win7系统自动完成分区的操作方法

win7系统电脑使用过程中有不少朋友表示遇到过win7系统自动完成分区的状况，当出现win7

阅读：319|2022-11-06

客服电话

电子邮件

一个很好的php分词类库

请发表评论

全部评论

上一篇：

下一篇：

ewiger/mlab: Mlab is a high-level python

7个非常好的免费Delphi组件集(转)

IvonaTau/emotionaldan: Deep Neural Netwo

amueller/COMS4995-s19: COMS W4995 Applie

Edditoria/notepad-plus-plus-localization

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

Delphi 7学习开发控件(续)

win7系统重装系统初始设置的操作方法

これがマストドンだ！使い方からインスタ

一树梨花压海棠是什么意思

关于我们

产品与服务

解决方案

139-2527-9053

客服电话

电子邮件

一个很好的php分词类库

请发表评论

全部评论

上一篇：

下一篇：

ewiger/mlab: Mlab is a high-level python

7个非常好的免费Delphi组件集(转)

IvonaTau/emotionaldan: Deep Neural Netwo

amueller/COMS4995-s19: COMS W4995 Applie

Edditoria/notepad-plus-plus-localization

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

Delphi 7学习开发控件(续)

win7系统重装系统初始设置的操作方法

これがマストドンだ！ 使い方からインスタ

一树梨花压海棠是什么意思

关于我们

产品与服务

解决方案

139-2527-9053

これがマストドンだ！使い方からインスタ