[发明专利]一种基于地方志研究的搜索优化方法有效
申请号: | 201710608338.9 | 申请日: | 2017-07-24 |
公开(公告)号: | CN107609006B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 黄涛;张浩;杨华利;张晨晨;张慧芳;熊慧敏 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F40/289;G06F40/216;G06F40/30 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 吴晓颖 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 地方志 研究 搜索 优化 方法 | ||
1.一种基于地方志研究的搜索优化方法,其特征在于该方法包括以下步骤:
(1)调用地方志分词算法,用于统计生成地方志的补充词汇,将默认词库中没有的词汇补充在自定义词库中,提高分词的准确性;
所述地方志分词算法,是结合词频统计和聚类算法,筛选出搜索文件集合中出现的高频词汇,然后经过过滤,将默认词库中没有的词汇补充在自定义词库中;其中,自定义词库包括扩展词汇和禁用词汇,用来调整当前搜索的需求;
(2)调用融合词语序列特征的搜索优化算法,通过比对词语序列特征,修正默认搜索算法的评分值,返回更加符合用户的语义的搜索结果,进而提高搜索的精确度;
所述融合词语序列特征的搜索优化算法,是用于优化搜索评分规则,通过对词序相似度的量化计算公式,有效反映出句子之间的词序关系,进行评分,修正BM25算法或VSM算法,最终计算出修正后的分值;本算法的词序相似度计算函数公式如下:
其中1≤OrderSeq(q,d)≤Set(q,d)
其中SeqScore(q,d)表示用户输入的查询语句q与文档d中相似语句的词序相似度得分;
Set(q,d)表示在q、d中都出现的词语的数量;
P_q(q,d)表示Set(q,d)中的词语在q中的位置序号构成的向量,从1开始标注;按照q中对应词语的序号对d中相似语句进行标注,如果遇到新词则标注为M;P_d(q,d)表示P_q(q,d)中的分量按对应词语在d中的次序排列生成的向量,如果某个词语在d中出现多次,则从中选取一个最优位置进行标注,舍弃其它重复词语,使得总逆序数最小并且间隔词语最少;对P_d(q,d)对应的序列进行补充,在序列两端添加数字0和N,N为整数且N→+∞,生成序列sequence(q,d);P_seat(q,d)表示该序列sequence(q,d)的各相邻数值关系构成的向量,逆序的位置用1表示,顺序用0表示;P_NumSeat(q,d)表示序列sequence_(q,d)的各相邻数值对应的词语间,间隔的词语数量构成的向量;OrderSeq(q,d)表示P_seat(q,d)各维度对应的权值之和;
OrderSeq(q,d)=w1+w2+…+wn,其中wi的计算方法为:
Ratio的计算公式如下:
上式中,分母包含标注为M的词语,Ratio反映出文本序列间隔词语的个数多少,用来修正权值,取对数对于数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高;
本算法得到的新计分公式为:
NewScore(q,d)=cof1*Score+cof2*SeqScore(q,d)
其中,Score为使用BM25或VSM原始相似度评分算法得到的相似度得分,cof1和cof2是经验系数,且cof1+cof2=1。
2.根据权利要求1所述的基于地方志研究的搜索优化方法,其特征在于:进行精确搜索时,选择OrderSeq(q,d)乘以系数k,k表示目标文档d包含的对应于q中的词语数除以q中词语数的比值。
3.根据权利要求1所述的基于地方志研究的搜索优化方法,其特征在于:设定一个阈值,当搜索文档d的Score小于该阈值时,说明该文档与用户搜索的关联度极低,不去计算词语词序相似度SeqScore(q,d),将SeqScore(q,d)置为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710608338.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于机器视觉的物品定位方法及定位装置
- 下一篇:食品安全提示系统