[发明专利]一种基于语义语气加权的倒排索引优化算法有效
申请号: | 201710453251.9 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107402960B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 夏珺峥;傅玉生 | 申请(专利权)人: | 成都优易数据有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 李春芳 |
地址: | 611730 四川省成都市郫县德源镇(菁*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 语气 加权 索引 优化 算法 | ||
1.一种基于语义语气加权的倒排索引优化算法,其特征在于,包括以下步骤:
步骤1、预设语义停用词组S(stop),再设置具有不同语义加权值的增强语义词组S(pos)和弱化语义词组S(neg),并均作为语义停用词组S(stop)的子集;
步骤2、对每个输入文档进行切词处理,获得有序词语序列L(org);
步骤3、将有序词语序列L(org)与语义停用词组S(stop)进行匹配,匹配过程中滤除出现在语义停用词组S(stop)中的词组,获得输入文档的关键词序列L(key);
步骤4、遍历关键词序列L(key),获得当前关键词的语气加权值后,在当前关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组S(pos)和弱化语义词组S(neg)匹配的词组,由所匹配词组的语义加权值结合语气加权值计算当前关键词的加权词频,在遍历完成后获得文档的加权词频;
步骤5、根据文档加权词频进行倒排,获得索引优化的文档序列。
2.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法,其特征在于,所述的步骤1,通过程度副词设置增强语义词组S(pos)和弱化语义词组S(neg)。
3.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法,其特征在于,所述的步骤4,其中,通过当前关键词所在原语句句尾特征确定其语气加权值。
4.根据权利要求3所述的一种基于语义语气加权的倒排索引优化算法,其特征在于,所述的步骤4,其中,获得语气加权值包括:
步骤①、定义原语句的标点关联预设语气加权值;
步骤②、通过当前关键词所在原语句句尾标点获得其语气加权值。
5.根据权利要求1所述的一种基于语义语气加权的倒排索引优化算法,其特征在于,所述的步骤4,其中,定义原句子j中当前关键词keyindex的加权词频fkey为:
Wi为关键词key的语义加权值,n代表文档中关键词key的数量,m表示关键词key和之前关键词之间与增强语义词组S(pos)和弱化语义词组S(neg)匹配的语义词组数量,Wj为语气加权值。
6.一种确定文档加权词频的方法,其特征在于,包括以下步骤:
步骤1、设置具有不同语义加权值的词库;
步骤2、将文档的关键词词组和词库进行匹配,并将所有未被匹配的关键词词组作为关键词序列L(key);
步骤3、将原语句句尾特征进行划分定量,确定每种句尾特征对应的语气加权值,再通过关键词序列L(key)中每个关键词所在原语句的句尾特征确定出对应关键词的语气加权值;
步骤4、在当前关键词位置至其上次出现位置范围内查询文档词组中与词库匹配的词组,通过匹配的词组获得当前关键词的语义加权值,结合语气加权值通过权重乘积计算出当前关键词的加权词频,然后遍历关键词序列L(key),通过求和计算出文档的加权词频。
7.根据权利要求6所述的一种确定文档加权词频的方法,其特征在于,所述的步骤1,预设语义停用词组S(stop),再设置增强语义词组S(pos)和弱化语义词组S(neg)并均作为语义停用词组S(stop)的子集。
8.一种确定关键词语义加权值的方法,其特征在于,包括以下步骤:
步骤1、设置与关键词词组交集为空的增强语义词组S(pos)和弱化语义词组S(neg),增强语义词组S(pos)和弱化语义词组S(neg)分别赋有不同的语义加权值;
步骤2、在关键词位置至其上次出现位置范围内查询文档词组中与增强语义词组S(pos)和弱化语义词组S(neg)匹配的词组;
步骤3、根据匹配的词组所赋有的语义加权值,通过权重乘积计算出该关键词的语义加权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710453251.9/1.html,转载请声明来源钻瓜专利网。