[发明专利]一种判定文本相似性的方法和系统在审
申请号: | 201711088831.9 | 申请日: | 2017-11-08 |
公开(公告)号: | CN107967255A | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 冯素梅;江国进;孙永滨;白涛;杜乔瑞;王晓燕;张亚栋;徐先柱 | 申请(专利权)人: | 北京广利核系统工程有限公司;中国广核集团有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 北京国电智臻知识产权代理事务所(普通合伙)11580 | 代理人: | 孙小敏 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于文本分类的技术领域,为了解决现有技术中三种文本相似性判断算法分别存在的不足,本发明提供一种判定文本相似性的方法和系统,所述方法包括S1、构建向量空间模型,使得文本量化成可处理的对象;S2、使用Siamese网络构建文本语义相似性提取模型,并且在Siamese网络中,语义特征提取网络与相似性判别网络串联在一起,同时在样本训练阶段进行优化;S3、基于训练阶段样本的语义特征表达,构造基于特征向量的夹角余弦的文本相似度计算函数,以及最终的损失函数;S4、输入两个待测文本,基于Siamese网络对待测文本进行语义特征提取之后,计算两个向量的余弦夹角距离,并设置阈值,当两个向量的余弦夹角距离大于阈值时,判定为相似,否则判定为不相似。 | ||
搜索关键词: | 一种 判定 文本 相似性 方法 系统 | ||
【主权项】:
一种判定文本相似性的方法,其特征在于,包括:S1、构建向量空间模型,使得文本量化成可处理的对象;S2、使用Siamese网络构建文本语义相似性提取模型,并且在所述Siamese网络中,语义特征提取网络与相似性判别网络串联在一起,同时在样本训练阶段进行优化;S3、基于训练阶段样本的语义特征表达,构造基于特征向量的夹角余弦的文本相似度计算函数,以及最终的损失函数,使得同类样本对的特征向量映射到空间某个区域;S4、输入两个待测文本,基于所述Siamese网络对待测文本进行语义特征提取之后,计算两个向量的余弦夹角距离,并设置阈值,当两个向量的余弦夹角距离大于阈值时,判定为相似,否则判定为不相似。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京广利核系统工程有限公司;中国广核集团有限公司,未经北京广利核系统工程有限公司;中国广核集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711088831.9/,转载请声明来源钻瓜专利网。