[发明专利]一种基于CTW和KM算法的语义相似度计算方法及装置有效
申请号: | 201811517145.3 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109858015B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 李军;钮焱;刘宇强;李星;童坤 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430068 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ctw km 算法 语义 相似 计算方法 装置 | ||
1.一种基于CTW和KM算法的语义相似度计算方法,其特征在于,包括:
步骤S1:选择预设语料库,并通过预设词向量结合神经网络学习的方法训练,获得词向量空间,其中,词向量空间中的每个词向量用以表征该分词的语义信息;
步骤S2:将待比较文本与源文本进行分词,再根据所述词向量空间,分别建立与待比较文本、源文本对应的词分量数组;
步骤S3:依次计算待比较文本中的每个分词与源文本中的每个分词的CTW距离;
步骤S4:根据计算出的CTW距离构建CTW矩阵;
步骤S5:将分词对应的词分量,按照待比较文本、源文本分为第一集合和第二集合,其中,第一集合和第二集合中的每个词分量对应一个顶点,并根据顶点和CTW矩阵建立与待比较文本、源文本对应的第一超平面和第二超平面,再计算第一超平面与第二超平面之间的层间距离,同时求得第二超平面对应的映射法向量;
步骤S6:计算第二超平面对应的映射法向量与待比较文本中向量点的距离,将其作为平面内距离;
步骤S7:根据层间距离和平面内距离,计算待比较文本与源文本之间的相似度。
2.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
步骤S3.1:采用动态规划方法DTW中的预设公式计算Wx,Wy,该预设公式具体为:
其中,为求出的对齐X和Y的二元选择矩阵,矩阵Wx和Wy为对齐路径的编码;
步骤S3.2:在DTW的最小平方公式的基础上增加线性变换最小平方公式具体为:
其中,b≤min(dx,dy),通过将序列投影到相同的坐标系中来参数化空间扭曲;
步骤S3.3:利用单位矩阵初始化Vx和Vy;
步骤S3.4:采用典型相关分析方法CCA计算Vx和Vy;
步骤S3.5:重复执行步骤S3.1,采用预设规则改变Wx、Wy、Vx和Vy的值,根据预设公式计算CTW距离值Jctw,当连续两次计算出的CTW距离值Jctw满足预设条件时,则取当前的Jctw作为CTW距离。
3.如权利要求1所述的方法,其特征在于,步骤S4具体包括:
将步骤S3计算出的CTW距离对应的矩阵进行维度扩展,转换为n*n维的矩阵,其中,n=min{dx,dy},dx×dy为CTW距离对应的矩阵的大小。
4.如权利要求1所述的方法,其特征在于,步骤S5具体包括:
步骤S5.1:初始化可行顶标的值,对两边的每一个顶点都赋予一个额外的值Lx(x)=max{w(x,yi)}i=1,2,....,dy,Ly(y)=0,使得对于二分图G内的所有边e=xiyj均有Lx(x)+Ly(y)≥w(xy),对于一个赋值二分图G(X,Y,E,W),X,Y代表二分图的两边顶点标号,E代表边的权值;
步骤S5.2:在已经赋值可行顶标的二分图中,保留所有Lx(x)+Ly(y)=w(xy)的边,删去其他的边,获得生成子图,再采用匈牙利算法KM寻找生成子图的完备匹配,其中完备匹配用以表示所有的顶点都是匹配点的图;
步骤S5.3:判断是否找到完备匹配,如果未找到,则通过修改可行顶标的值进行调整,继续执行步骤S5.2;
步骤S5.4:根据找出的完备匹配,求出二分图的最小路径覆盖的路径的最小值和最大值,将最小值和最大值作为层间距离的最小值和层间距离的最大值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811517145.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语言信息主动校对系统及其主动校对方法
- 下一篇:一种商事凭证匹配方法