[发明专利]面向长文本的语义匹配方法及系统有效
申请号: | 201911082442.4 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110825852B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 杨兰;展华益;孙锐;周兴发;饶璐;谭斌 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06K9/62;G06N3/04 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈立志 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 文本 语义 匹配 方法 系统 | ||
1.面向长文本的语义匹配方法,其特征在于,包括:
步骤s1:对输入文本进行数据处理,包括去掉特殊字符、分词和分字;
步骤s2:将经过数据处理后的输入文本映射成为数值序列;
步骤s3:将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量;所述特征提取模型包括:子特征提取模块1,表示为m1;子特征提取模块2,表示为m2;获取输入文本的特征向量具体步骤为:
步骤s31:通过m1获取输入文本的特征向量f1;具体包括:
步骤s311:m1的Embedding层采用字词混合的Embedding方式,输入以字为单位的文本序列,经过一个字Embedding层后得到字向量序列;然后将文本分词,通过一个预训练好的词向量模型来提取对应的词向量序列,再者,将每个词的词向量重复,以使词向量序列与字向量序列对齐,得到对齐的词向量序列后,将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加;
步骤s312:m1的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L131,以及一层专门用于获取词向量在每一维上的max值的层L132,并顺序级联3个带有残差结构的卷积模块,将卷积模块的输出经过最大池化后,与层L131,层L132的输出结果进行拼接;
步骤s313:m1的损失函数采用的是Am-Softmax损失函数;
步骤s314:将训练数据中的相似数据划分为一个组,打上类别标签,并采用Am-Softmax作为损失函数;
步骤s315:基于训练数据,m1用作分类模型进行训练;
步骤s316:将输入文本数值序列化后,输入到m1网络中,提取输入文本的特征向量f1;
步骤s32:通过m2获取输入文本的文本特征向量f2;具体包括:
步骤s321:利用TF-IDF抓取数据集中的停用词,非关键词,制成停用词表,停用词表里的词参与词向量训练,但是,最终停用词表里的词的向量被固定为0,表示这类词不参与提取特征模型的训练;
步骤s322:对模型的输入文本内的词按照一定比列进行随机掩码,然后再输入到m2中;
步骤s323:m2的Embedding层采用词Embedding层,且m2的词向量模型与m1的词向量模型不一样;
步骤s324:m2的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L231,以及一层专门用于获取词向量在每一维上的max值的层L232,和BiLSTM层,将BiLSTM层的输出结果与层L231,层L232的输出结果进行拼接;
步骤s325:m2的损失函数采用的是Am-Softmax损失函数;
步骤s326:将训练数据中的相似数据划分为一个组,打上类别标签,并采用Am-Softmax作为损失函数;
步骤s327:基于训练数据,m2用作分类模型进行训练;
步骤s328:将输入文本数值序列化后,输入到m2网络中,提取输入文本的特征向量f2;
步骤s33:将f1与f2进行融合以得到输入文本的特征向量f,融合方式为:f=f1+f2;
步骤s4:将数据库中的每条数据都经过步骤s1,步骤s2,步骤s3获取其各自的特征向量,并基于特征向量进行聚类;
步骤s5:基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据;
步骤s6:将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据。
2.如权利要求1所述的面向长文本的语义匹配方法,其特征在于,步骤s1具体包括:去掉输入文本中的无效字符,接着将输入文本转换为以字为单位的文本序列,和以词单位的文本序列。
3.如权利要求1所述的面向长文本的语义匹配方法,其特征在于,步骤s2包括:
步骤s21:基于数据库中的数据进行词向量训练,并产生字典,得到词向量模型;
步骤s22:基于词向量模型,将分词后的文本映射为以词为单位的数值序列;
步骤s23:基于字典,将分字后的文本映射为以字为单位的数值序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082442.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微波烧结用辅热保温装置
- 下一篇:异丙基硫杂蒽酮的制备方法