Lucene Similarity (Lucene 文档评分score机制详解) [转载]

原作者: [db:作者] 来自: [db:来源] 收藏邀请

文档的分值代表了该文档在特定查询词下对应的相关性高低，他关联着信息检索向量空间模型中的向量夹角的接近度。一个文档越与查询词相关，得分越高。分值计算公式如下：

其中
1、tf(t in d)这个值衡量着Term在文档中出现的频率，也就是词频。关键词在文档中出现的次数越多，得分越高，这个值在DefaultSimilarity的计算公式如下(词频的平方根)：

2、idf(t)代表着该词的逆词频，这个值衡量了该词在整个文档库中出现的频度。这意味着，一个词出现的越少，根据香农的信息公示，他越珍稀。同时将贡献更多的分值给总分值。默认的计算公式如下(其中numDocs代表整个文档的数量，docFreq代表了含有Term t的文档数量)：

3、coord(q,d)这个分值衡量了文档中含有多少Term。文档中出现的越多，越全，将获得越高的分值。举个例来说，查询“lucene”和”Apache”，同时出现两个Term的肯定比只出现一个lucene或者Apache的分值高。这个值是搜索时动态计算的，默认的计算公式如下：

4、queryNorm(q)这个标准化因子用于在多个查询器中进行比较。它并不影响文档的排名。它的主要作用在于多个查询器返回的结果进行比较，甚至是结果来自多个索引时。这是搜索时的权重因子，当给查询器设置权重时就是通过这个因子进行影响的。默认的实现公式如下：

其中的sumOfSquaredWeights的计算公式如下：（可以清晰的看到获取query的boost，当没给查询器设置值时，默认为1，不起作用）

5、t.getBoost()该值是一个搜索时权重因子，可以在查询时给不同的Term设置不同的权重，可以通过lucene语法，也可以通过setBost()函数，注意，在多Term查询器中，是没有获取单一Term权重的函数的，所以如果需要获取，只能调用相应的子查询器函数的getBoost()函数。

6、norm(t,d)封装了一些索引时因子以及长度因子。
Document boost – 在索引时，添加到Index前可以通过doc.setBoost()设置，衡量了Document的重要程度。.
Field boost – 在将字段加入到文档前可以通过调用field.setBoost()来设置字段的权重。
lengthNorm(field) – 该值在将文档添加到索引时，根据所有文档中特定字段的Term数来计算。所以默认更短的字段将贡献更多的分值。

当文档加入索引时，以上因子将相乘，如果一个文档中有多个同名的字段，那么将多个多同的权重也相乘。

可是还有件值得注意的事情，这个值在索引时计算完毕后将编码为一个Byte存储起来，在搜索时，再从文件中读取出该值并解码成float。在这个过程中，可能会造成精度的缺失，并不能保证decode(encode(x)) = x，比如，有可能decode(encode(0.89)) = 0.75，同样值得注意的是，在搜索时改变此值已经太晚了。例如，用一个不同于DefaultSimilarity的实现。

相关函数：

setDefault(Similarity), IndexWriter.setSimilarity(Similarity), Searcher.setSimilarity(Similarity)

本翻译属于原创，转载时请注明出处。英文原版请查看：

hudson.zones.apache.org/hudson/job/Lucene-trunk/javadoc//org/apache/lucene/search/Similarity.html

本文转载自：http://blog.csdn.net/duck_genuine/article/details/6394701

鲜花

握手

雷人

路过

鸡蛋

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

朴素贝叶斯分类发布时间：2022-05-14

C函数qsort在多线程下core dump分析【转】发布时间：2022-05-14

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19128|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9972|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8317|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8686|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8626|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9643|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8611|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7991|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8642|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7527|2022-11-06

客服电话

电子邮件

Lucene Similarity (Lucene 文档评分score机制详解) [转载]

相关函数：

上一篇：

下一篇：

bradtraversy/iweather: Ionic 3 mobile we

joaomh/curso-de-matlab

断牙刷新位置时间（断牙属性及刷新位置介绍

Java小程序—录屏小程序(上半场)

rugk/mastodon-simplified-federation: Sim

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053