[发明专利]一种依据贡献度排序的方法及装置有效
申请号: | 201110460665.7 | 申请日: | 2011-12-31 |
公开(公告)号: | CN103186647A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 田建峰;张朝胜;于亮 | 申请(专利权)人: | 北京金山软件有限公司;北京金山数字娱乐科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;李兆岭 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 依据 贡献 排序 方法 装置 | ||
技术领域
本发明涉及排序领域,尤其是涉及一种依据贡献度向量排序的方法及装置。
背景技术
一个词条在词典中常常具有多个释义项,但每一释义项对用户来讲并非是等同的。有一些释义项是大多数用户在生活中常用的,用户希望能在词典中第一眼就看到这些释义项。有一些是比较生僻的,通常情况下不会被用到。因此,为了增强词典的易用性,通常在词典的编纂过程中会将常用的释义项放在靠前的位置,第一眼就给用户显示其最想要的解释,而将较生僻的释义项放在靠后的位置。词典领域属于特定的技术领域,该领域中对于通过多本词典合并后的综合词典,现有技术通过随机排序,或者依靠人工排序进行排列,费时、费力而且还会掺杂大量的主观因素进去。另外还有一种词典排序的方法是基于机器统计的,但这种方法考虑因素单一,得到的效果不好。比如只根据释义项在语料库中出现的频次对释义项进行排序。但这种方法考虑因素单一,人工对比分析发现,所获得的排序结果不够准确,排序方法不够智能。首先,一个释义项是否是常用的释义项并不仅仅由该释义项在语料库中出现的频次决定。换句话说,在语料库中出现频次多的释义项并非一定是常用的释义项。其次,对在语料库中频次相同的释义项无法区分,也就无法对其排序。因此,现有技术不能有效的对词典的中某一词条的释义项进行精确的排序。
这一问题同样出现在现在的搜索引擎或论坛评论中。在搜索引擎或查看论坛评论时同样会出现多个结果,现有技术也未提供一种有效的排序方法。
发明内容
本发明提供了一种依据贡献度排序的方法及装置,通过计算并综合排序目标项在至少两个维度的贡献度向量,利用综合后的贡献度向量对排序目标项排序,提高了对排序目标项排序的准确度,使排序目标项的顺序更符合用户的使用习惯。
本发明提供了一种依据贡献度排序的方法,所述方法包括:
确定排序目标项,并根据所述排序目标项的特征,选取至少两个维度;
统计所述排序目标项在所述至少两个维度上的排序参数;
根据所述排序参数,计算所述排序目标项在所述至少两个维度上的贡献度向量;
依据所述维度的权重对归一化的所述贡献度向量计算综合贡献度向量;
根据所述综合贡献度向量对所述排序目标项进行排序。
优选的,当所述排序目标项为词条释义项的代表释义项时,所述至少两个维度为以下维度中的至少两个维度:
字频;长度频度;例句中出现频度;语料库中出现频度;词典中出现的频度;排列顺序;规范性;
所述统计所述排序目标项在所述至少两个维度上的排序参数包括:
统计所述代表释义项在所述至少两个维度上的排序参数;
所述根据所述排序参数,计算所述排序目标项在所述至少两个维度上的贡献度向量包括:
根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量;
所述根据所述综合贡献度向量对所述排序目标项进行排序包括:
根据所述综合贡献度向量对所述代表释义项进行排序。
优选的,当所述至少两个维度中的一个维度为字频时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述词条所有释义项中每个字的频次;
根据所述统计的频次计算所述代表释义项的平均字频;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据所述代表释义项的平均字频和所述代表释义项的平均字频和,计算所述代表释义项的字频贡献度向量。
优选的,当所述至少两个维度中的一个维度为长度频度时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述词条所有释义项的长度及所述长度的频次;
获取所述代表释义项的长度的频次;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据所述代表释义项的长度的频次和所述代表释义项的长度的频次和,计算所述代表释义项的长度贡献度向量。
优选的,当所述至少两个维度中的一个维度为例句中出现频度时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述代表释义项在查询结果的例句中出现的频次;
计算所述代表释义项在查询结果的例句中出现的频次和;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据所述在查询结果的例句中出现的频次和所述在查询结果的例句中出现的频次和,计算所述代表释义项的例句频度贡献度向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山软件有限公司;北京金山数字娱乐科技有限公司,未经北京金山软件有限公司;北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110460665.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于处理粘液的试剂
- 下一篇:一种鱼油亚麻籽油软胶囊及其制备方法