[发明专利]一种文本相似度的确定方法及设备有效
申请号: | 201810022280.4 | 申请日: | 2018-01-10 |
公开(公告)号: | CN108090047B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 周春;郑百成;黄妍明;方永毅;瞿荣;蒋运承 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/253;G06K9/62 |
代理公司: | 广州新诺专利商标事务所有限公司 44100 | 代理人: | 罗毅萍 |
地址: | 510631 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 相似 确定 方法 设备 | ||
1.一种文本相似度的确定方法,其特征在于,包括:
获取待确定相似度的第一文本和第二文本;
确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;
根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度;
确定所述第一文本和所述第二文本的主题相似度,包括:
分别将所述第一文本和所述第二文本映射至主题空间;其中,所述第一文本及所述第二文本分别对应至少一个主题;
获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量;
根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则,确定所述第一文本和所述第二文本的主题相似度;
其中,所述第一预设规则为:
其中,Stopic指示两个文本的主题相似度,A指示第一主题向量,B指示第二主题向量,Ai指示第i个第一主题向量,Bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1且小于等于n;
确定所述第一文本和所述第二文本的语法相似度,包括:
将所述第一文本中的语句进行分割获得第一分词集,并将所述第二文本中的语句进行分割获得第二分词集;
通过斯坦福Stanford工具分别确定所述第一分词集及所述第二分词集中的语句的语法结构组成;
根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度;
所述语法结构包括至少一种语法结构类型,根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度,包括:
分别确定所述第一分词集包括语法结构类型及语法结构类型的数量,及所述第二分词集包括语法结构类型及语法结构类型的数量;
根据获取的所述第一分词集及所述第二分词集的语法结构类型及语法结构类型的数量,及第二规则确定所述第一文本和所述第二文本的语法相似度;
其中,所述第二规则为:
其中,Sgrammer指示两个文本之间的语法相似度,sameCount指示所述第一分词集及所述第二分词集中相同语法结构类型的数量,m为所述第一分词集包括的语法结构类型的数量,n为所述第二分词集包括的语法结构类型的数量;
在根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度之前,还包括:
确定所述第一分词集及所述第二分词集中的分词的位置相似度;其中,所述位置相似度用于指示文本中的一个分词在一个语句中所在位置的相似程度;
根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度,包括:
根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度;
根据确定的语法相似度和主题相似度及确定的位置相似度,确定所述第一文本和所述第二文本之间的相似度,包括:
通过第三规则确定所述第一文本和所述第二文本之间的相似度,其中,所述第三规则为:
S1(Sen1,Sen2)=a*Stopic+(1-a)(b*Sgrammer+(1-b)*(Sposition)),其中S1(Sen1,Sen2)指示两个文本之间的相似度,Sposition指示两个文本包括的分词分别在各自的位置相似度,a指示主题权值,b指示语法类型权值;
在获取待确定相似度的第一文本和第二文本之后,所述方法还包括:
确定所述第一文本和所述第二文本的情感相似度;
根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度,包括:
根据确定的语法相似度和主题相似度、位置相似度及所述情感相似度确定所述第一文本和所述第二文本之间的相似度;
确定所述第一文本和所述第二文本的情感相似度,包括:
提取所述第一文本及所述第二文本中的至少一个程度副词,其中,所述程度副词用于指示对内容在程度上限定的副词;
根据获取的至少一个程度副词及程度副词与权值的映射关系,确定所述获取的至少一个程度副词对应的至少一个权值,其中,一个程度副词对应一个权值;
根据确定的至少一个权值及第四预设规则,确定所述第一文本和所述第二文本的情感相似度;
其中,所述第四预设规则为:
CDegSim(Sen1,Sen2)=c*[abs(Deg(Sent1)-Deg(Sent2))]+(1-c)*S1(Sen1,Sen2),其中,CDegSim(Sen1,Sen2)指示两个文本之间的情感相似度,Deg(Sent1)指示第一文本中程度副词的权值,Deg(Sent2)指示第二文本中程度副词的权值,c是句子间程度副词权重差值对句子相似度的影响权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810022280.4/1.html,转载请声明来源钻瓜专利网。