一个很好的php分词类库

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

PHPAnalysis源程序下载与演示： PHP分词系统 V2.0 版下载 | PHP分词系统演示 | PHPAnalysis类API文档

原文连接地址:http://www.phpbone.com/phpanalysis/

分词系统简介：PHPAnalysis分词程序使用居于unicode的词库，使用反向匹配模式分词，理论上兼容编码更广泛，并且对utf-8编码尤为方便。由于PHPAnalysis是无组件的系统，因此速度会比有组件的稍慢，不过在大量分词中，由于边分词边完成词库载入，因此内容越多，反而会觉得速度越快，这是正常现象，PHPAnalysis的词库是用一种类似哈希(Hash)的数据结构进行存储的，因此对于比较短的字符串分词，只需要占极小的资源，比那种一次性载入所有词条的实际性要高得多，并且词库容量大小不会影响分词执行的速度。
    PHPAnalysis分词系统是基于字符串匹配的分词方法进行分词的，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：
1）正向最大匹配法（由左到右的方向）；
2）逆向最大匹配法（由右到左的方向）；
3）最少切分（使每一句中切出的词数最小）。
    还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。另一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。
    PHPAnalysis分词先对需要分词的词进行粗分，然后对粗分的短句子进行二次逆向最大匹配法(RMM)的方法进行分词，分词后对分词结果进行优化，然后才得到最终的分词结果。

PHPAnalysis类API文档

一、比较重要的成员变量
$resultType   = 1        生成的分词结果数据类型(1 为全部， 2为 词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐
二、主要成员函数列表
1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='') 
函数说明：构造函数
参数列表：
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典（此参数已经作废）
$source              源字符串
如果输入输出都是utf-8，实际上可以不必使用任何参数进行初始化，而是通过 SetSource 方法设置要操作的文本
2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明：设置源字符串
参数列表：
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值：bool
3、public function StartAnalysis($optimize=true)
函数说明：开始执行分词操作
参数列表：
$optimize            分词后是否尝试优化结果
返回值：void
一个基本的分词过程：
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////
4、public function SetResultType( $rstype )
函数说明：设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为：
1 为全部， 2为 词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文
返回值：void
5、public function GetFinallyKeywords( $num = 10 )
函数说明：获取出现频率最高的指定词条数（通常用于提取文档关键字）
参数列表：
$num = 10  返回词条个数
返回值：用","分隔的关键字列表
6、public function GetFinallyResult($spword=' ')
函数说明：获得最终分词结果
参数列表：
$spword    词条之间的分隔符
返回值：string
7、public function GetSimpleResult()
函数说明：获得粗分结果
返回值：array
8、public function GetSimpleResultAll()
函数说明：获得包含属性信息的粗分结果
属性（1中文词句、2 ANSI词汇（包括全角），3 ANSI标点符号（包括全角），4数字（包括全角），5 中文标点或无法识别字符）
返回值：array
9、public function GetFinallyIndex()
函数说明：获取hash索引数组
返回值：array('word'=>count,...) 按出现频率排序
10、public function MakeDict( $source_file, $target_file='' )
函数说明：把文本文件词库编译成词典
参数列表：
$source_file   源文本文件
$target_file   目标文件(如果不指定，则为当前词典)
返回值：void
11、public function ExportDict( $targetfile )
函数说明：导出当前词典全部词条为文本文件
参数列表：
$targetfile  目标文件
返回值：void

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Pipeline流水线及流水线发布PHP项目发布时间：2022-07-10

PHP问题Parseerror:syntaxerror,unexpectedendoffilein发布时间：2022-07-10

PacktPublishing/Python-Machine-Learning-

1 matlab破解教程密钥

http://wenku.baidu.com/link?url=YW1f0XP1VRcOq8YtwsIv-m0vMS3YuFwY7H617koFr9zM6I86

阅读：556|2022-07-18

2 PacktPublishing/Python-Machine-Learning-

PacktPublishing/Python-Machine-Learning-Second-Edition: Python Machine Learning

阅读：972|2022-08-18

3 sussillo/hfopt-matlab: A parallel, cpu-b

sussillo/hfopt-matlab: A parallel, cpu-based matlab implemention of the Hessian

阅读：996|2022-08-17

4 鲁东大学一米网:Win7系统USB驱动器RAM的操

win7系统电脑使用过程中有不少朋友表示遇到过win7系统USB驱动器RAM的状况，当出现win7

阅读：889|2022-11-06

5 emersion/go-ostatus: An OStatus library

emersion/go-ostatus: An OStatus library written in Go

阅读：751|2022-08-17

6 CVE-2021-39088

IBM QRadar SIEM 7.3, 7.4, and 7.5 is vulnerable to local privilege escalation if

阅读：1785|2022-07-29

7 elipapa/markdown-cv: a simple template t

elipapa/markdown-cv: a simple template to write your CV in a readable markdown f

阅读：512|2022-08-17

8 kali-docs-cn/kali-linux-web-pentest-cook

kali-docs-cn/kali-linux-web-pentest-cookbook-zh: Kali Linux Web 渗透测试秘籍中

阅读：771|2022-08-15

9 像的笔顺,知晓像的笔画,议论像的部首

像的笔顺怎么写?像的笔顺笔画顺序是什么?知晓像字的笔画顺序怎么写了解到好多的写字朋

阅读：1042|2022-07-30

10 knative/build: A Kubernetes-native Build

knative/build: A Kubernetes-native Build resource.

阅读：1219|2022-08-13

客服电话

电子邮件

一个很好的php分词类库

请发表评论

全部评论

上一篇：

下一篇：

bradtraversy/iweather: Ionic 3 mobile we

Delphi的类方法不是静态方法

joaomh/curso-de-matlab

断牙刷新位置时间（断牙属性及刷新位置介绍

纸的笔顺,了解纸的笔画,解析纸的部首

PacktPublishing/Python-Machine-Learning-

sussillo/hfopt-matlab: A parallel, cpu-b

鲁东大学一米网:Win7系统USB驱动器RAM的操

emersion/go-ostatus: An OStatus library

CVE-2022-22982

小程序页面高度控制

关于我们

产品与服务

解决方案

139-2527-9053