[发明专利]面向长文本的语义匹配方法及系统有效

专利信息
申请号: 201911082442.4 申请日: 2019-11-07
公开(公告)号: CN110825852B 公开(公告)日: 2022-06-14
发明(设计)人: 杨兰;展华益;孙锐;周兴发;饶璐;谭斌 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F40/289;G06F40/30;G06K9/62;G06N3/04
代理公司: 成都虹桥专利事务所(普通合伙) 51124 代理人: 陈立志
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 文本 语义 匹配 方法 系统
【权利要求书】:

1.面向长文本的语义匹配方法,其特征在于,包括:

步骤s1:对输入文本进行数据处理,包括去掉特殊字符、分词和分字;

步骤s2:将经过数据处理后的输入文本映射成为数值序列;

步骤s3:将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量;所述特征提取模型包括:子特征提取模块1,表示为m1;子特征提取模块2,表示为m2;获取输入文本的特征向量具体步骤为:

步骤s31:通过m1获取输入文本的特征向量f1;具体包括:

步骤s311:m1的Embedding层采用字词混合的Embedding方式,输入以字为单位的文本序列,经过一个字Embedding层后得到字向量序列;然后将文本分词,通过一个预训练好的词向量模型来提取对应的词向量序列,再者,将每个词的词向量重复,以使词向量序列与字向量序列对齐,得到对齐的词向量序列后,将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加;

步骤s312:m1的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L131,以及一层专门用于获取词向量在每一维上的max值的层L132,并顺序级联3个带有残差结构的卷积模块,将卷积模块的输出经过最大池化后,与层L131,层L132的输出结果进行拼接;

步骤s313:m1的损失函数采用的是Am-Softmax损失函数;

步骤s314:将训练数据中的相似数据划分为一个组,打上类别标签,并采用Am-Softmax作为损失函数;

步骤s315:基于训练数据,m1用作分类模型进行训练;

步骤s316:将输入文本数值序列化后,输入到m1网络中,提取输入文本的特征向量f1;

步骤s32:通过m2获取输入文本的文本特征向量f2;具体包括:

步骤s321:利用TF-IDF抓取数据集中的停用词,非关键词,制成停用词表,停用词表里的词参与词向量训练,但是,最终停用词表里的词的向量被固定为0,表示这类词不参与提取特征模型的训练;

步骤s322:对模型的输入文本内的词按照一定比列进行随机掩码,然后再输入到m2中;

步骤s323:m2的Embedding层采用词Embedding层,且m2的词向量模型与m1的词向量模型不一样;

步骤s324:m2的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L231,以及一层专门用于获取词向量在每一维上的max值的层L232,和BiLSTM层,将BiLSTM层的输出结果与层L231,层L232的输出结果进行拼接;

步骤s325:m2的损失函数采用的是Am-Softmax损失函数;

步骤s326:将训练数据中的相似数据划分为一个组,打上类别标签,并采用Am-Softmax作为损失函数;

步骤s327:基于训练数据,m2用作分类模型进行训练;

步骤s328:将输入文本数值序列化后,输入到m2网络中,提取输入文本的特征向量f2;

步骤s33:将f1与f2进行融合以得到输入文本的特征向量f,融合方式为:f=f1+f2;

步骤s4:将数据库中的每条数据都经过步骤s1,步骤s2,步骤s3获取其各自的特征向量,并基于特征向量进行聚类;

步骤s5:基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据;

步骤s6:将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据。

2.如权利要求1所述的面向长文本的语义匹配方法,其特征在于,步骤s1具体包括:去掉输入文本中的无效字符,接着将输入文本转换为以字为单位的文本序列,和以词单位的文本序列。

3.如权利要求1所述的面向长文本的语义匹配方法,其特征在于,步骤s2包括:

步骤s21:基于数据库中的数据进行词向量训练,并产生字典,得到词向量模型;

步骤s22:基于词向量模型,将分词后的文本映射为以词为单位的数值序列;

步骤s23:基于字典,将分字后的文本映射为以字为单位的数值序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911082442.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top