[发明专利]一种基于CTW和KM算法的语义相似度计算方法及装置有效
申请号: | 201811517145.3 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109858015B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 李军;钮焱;刘宇强;李星;童坤 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430068 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于CTW和KM算法的语义相似度计算方法及装置,其中的方法针对于现有技术中语义相似度计算方法中未考虑分词顺序对语义的重要影响的弊端,在保持单个语义判定规则的同时,考虑了顺序对句子的影响。该计算方法利用Word2Vec深度学习平台将文本划分为多维空间的分词向量,并映射到多维向量空间,并将向量连接构成多维空间下的曲线,借用图像中的曲线相似度中较新的时间翘曲距离来通过词向量曲线来比较多个文本的相似度,为了减少计算规模,采用了KM算法。该方法与传统的最长公共子串、词频统计等方法比较,具有更强的鲁棒性,对于传统方法无法克服的分词相同语序不同的语句具有明显的效果,提高了计算的准确性。 | ||
搜索关键词: | 一种 基于 ctw km 算法 语义 相似 计算方法 装置 | ||
【主权项】:
1.一种基于CTW和KM算法的语义相似度计算方法,其特征在于,包括:步骤S1:选择预设语料库,并通过预设词向量结合神经网络学习的方法训练,获得词向量空间,其中,词向量空间中的每个词向量用以表征该分词的语义信息;步骤S2:将待比较文本与源文本进行分词,再根据所述词向量空间,分别建立与待比较文本、源文本对应的词分量数组;步骤S3:依次计算待比较文本中的每个分词与源文本中的每个分词的CTW距离;步骤S4:根据计算出的CTW距离构建CTW矩阵;步骤S5:将分词对应的词分量,按照待比较文本、源文本分为第一集合和第二集合,其中,第一集合和第二集合中的每个词分量对应一个顶点,并根据顶点和CTW矩阵建立与待比较文本、源文本对应的第一超平面和第二超平面,再计算第一超平面与第二超平面之间的层间距离,同时求得第二超平面对应的映射法向量;步骤S6:计算第二超平面对应的映射法向量与待比较文本中向量点的距离,将其作为平面内距离;步骤S7:根据层间距离和平面内距离,计算待比较文本与源文本之间的相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811517145.3/,转载请声明来源钻瓜专利网。
- 上一篇:语言信息主动校对系统及其主动校对方法
- 下一篇:一种商事凭证匹配方法