[发明专利]一种判定文本相似性的方法和系统在审

申请号：	201711088831.9	申请日：	2017-11-08
公开（公告）号：	CN107967255A	公开（公告）日：	2018-04-27
发明（设计）人：	冯素梅;江国进;孙永滨;白涛;杜乔瑞;王晓燕;张亚栋;徐先柱	申请（专利权）人：	北京广利核系统工程有限公司;中国广核集团有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/22
代理公司：	北京国电智臻知识产权代理事务所(普通合伙)11580	代理人：	孙小敏
地址：	100094 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于文本分类的技术领域，为了解决现有技术中三种文本相似性判断算法分别存在的不足，本发明提供一种判定文本相似性的方法和系统，所述方法包括S1、构建向量空间模型，使得文本量化成可处理的对象；S2、使用Siamese网络构建文本语义相似性提取模型，并且在Siamese网络中，语义特征提取网络与相似性判别网络串联在一起，同时在样本训练阶段进行优化；S3、基于训练阶段样本的语义特征表达，构造基于特征向量的夹角余弦的文本相似度计算函数，以及最终的损失函数；S4、输入两个待测文本，基于Siamese网络对待测文本进行语义特征提取之后，计算两个向量的余弦夹角距离，并设置阈值，当两个向量的余弦夹角距离大于阈值时，判定为相似，否则判定为不相似。
搜索关键词：	一种判定文本相似性方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种判定文本相似性的方法，其特征在于，包括：S1、构建向量空间模型，使得文本量化成可处理的对象；S2、使用Siamese网络构建文本语义相似性提取模型，并且在所述Siamese网络中，语义特征提取网络与相似性判别网络串联在一起，同时在样本训练阶段进行优化；S3、基于训练阶段样本的语义特征表达，构造基于特征向量的夹角余弦的文本相似度计算函数，以及最终的损失函数，使得同类样本对的特征向量映射到空间某个区域；S4、输入两个待测文本，基于所述Siamese网络对待测文本进行语义特征提取之后，计算两个向量的余弦夹角距离，并设置阈值，当两个向量的余弦夹角距离大于阈值时，判定为相似，否则判定为不相似。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京广利核系统工程有限公司;中国广核集团有限公司，未经北京广利核系统工程有限公司;中国广核集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711088831.9/，转载请声明来源钻瓜专利网。

上一篇：知识点预测方法及装置、存储介质、电子设备
下一篇：词语权重预测模型生成方法、职位推荐方法及计算设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种判定文本相似性的方法和系统在审

专利文献下载