[发明专利]一种基于细粒度依存关系的中文长句相似度计算方法有效
申请号: | 201610287388.7 | 申请日: | 2016-05-03 |
公开(公告)号: | CN105975458B | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 熊晶;郭涛;翟雪;孙华;王继鹏;高峰;袁冬 | 申请(专利权)人: | 安阳师范学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 455000 河南省安阳市弦歌*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于细粒度依存关系的中文长句相似度计算方法,基于依存关系对,将两个句子的依存关系对集合进行计算,选取使关系对相似度之和最大的对应关系,在对应关系的基础上,求出各关系对相似度之和的平均值,作为两个句子的句法结构相似度。本发明比较了依存关系中两个词汇的本身概念、词性、关系类别等五个特征量,衡量了句子的句法结构相似关系;实验结果已经凸显出语义分析在句子相似度计算中的优势;较之现有技术的相似度计算,在正确率上有一定的提高,考虑了在非中心词周围体现出的关键信息,而现有技术主要考虑依存句法树中的根节点‑谓语中心词及其直接支配部分两层;该方法是一种以时间换正确率的方法。 | ||
搜索关键词: | 一种 基于 细粒度 依存 关系 中文 长句 相似 计算方法 | ||
【主权项】:
1.一种基于细粒度依存关系的中文长句相似度计算方法,其特征在于,所述基于细粒度依存关系的中文长句相似度计算方法基于依存关系对,将两个句子的依存关系对集合进行匹配,选取使关系对相似度之和最大的对应关系,在对应关系的基础上,求出各关系对相似度之和的平均值,作为两个句子的句法结构相似度;所述基于细粒度依存关系的中文长句相似度计算方法比较了依存关系中两个词汇本身的概念、词性、关系类别五个特征量,综合衡量了句子的句法结构相似关系;所述基于细粒度依存关系的中文长句相似度计算方法对关注词语本身概念和词性、词间的依存关系以及重要程度进行了度量;通过计算两个依存句法树的相似度,实现中文长句的相似度计算;所述依存关系对的结构相容度的获取方法包括:依存关系对,分别对比R1(C1,A1,D1,CP1,AP1)和R2(C2,A2,D2,CP2,AP2)中的五个特征量,相容取1,不相容取0;然后,按权重顺序从高位到低位排列这五个0或1,得到一个二进制数(bbbbb)2,该值的取值范围为0‑31,其中0对应R1和R2完全不相等的情况,31对应R1和R2完全相等的情况;在该二进制数的基础上,定义R1和R2的结构相容度如下:
假设在两个五元组R1(C1,A1,D1,CP1,AP1)和R2(C2,A2,D2,CP2,AP2)中,C1与C2相容,A1与A2不相容,D1与D2相容,CP1与CP2相容,AP1与AP2不相容,则依照各特征权重顺序排列得出二进制数为(10110)2,则R1和R2的结构相容度为:
所述依存关系对的相似度计算方法包括:依存关系对中的元素存在语义相容,通过计算相对应的核心词和支配词的语义相似度,度量依存关系对的语义相似度,采用基于知网的计算方法计算词的语义相似度,并赋予不同的权值α和β,得到R1和R2的语义相似度如下:Ss(R1,R2)=αSw(C1,C2)+βSw(A1,A2);式中,Sw(C1,C2)表示中对应核心词的语义相似度,Sw(A1,A2)表示对应支配词的语义相似度,α>β且α+β=1;基于
和式Ss(R1,R2)=αSw(C1,C2)+βSw(A1,A2),得到依存关系对的相似度计算方法如下:R1|R2=Sim(R1,R2)=Sc(R1,R2)·Ss(R1,R2)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安阳师范学院,未经安阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610287388.7/,转载请声明来源钻瓜专利网。