[发明专利]面向长文本的语义匹配方法及系统有效
申请号: | 201911082442.4 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110825852B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 杨兰;展华益;孙锐;周兴发;饶璐;谭斌 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06K9/62;G06N3/04 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈立志 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 文本 语义 匹配 方法 系统 | ||
本发明涉及自然语言理解技术领域,公开了一种面向长文本的语义匹配方法及系统,用以解决现有技术中的文本语义理解方法的效果不理想的问题。本发明的方法包括:对输入文本进行数据处理,包括去掉特殊字符、分词和分字;将经过数据处理后的输入文本映射成为数值序列;将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量;基于特征向量进行聚类;基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP‑N类候选数据;将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP‑K个数据。本发明适用于长文本的语义匹配。
技术领域
本发明涉及自然语言理解技术领域,特别涉及面向长文本的语义匹配方法及系统。
背景技术
作为人工智能领域中重要方向之一的自然语言理解技术,一直是相关领域研究人员研究的热点。特别是近年来,随着移动互联网技术的迅速发展,信息化程度日益提高,人们越发渴望能让机器理解自然语言,从而实现减少人工投入、海量数据共享等目标。
相关技术中,主流方法是基于循环神经网络的文本语义理解方法和基于卷积神经网络的文本语义理解方法。但是,通常的循环神经网络和卷积神经网络都难以优化,具体而言,如果不增加深度,文本语义理解效果较差,而如果增加深度,训练和优化的错误率就会增加,难以得到准确的训练模型,从而语义理解错误率也较高。因此,相关技术中的文本语义理解方法的效果并不理想。
发明内容
本发明要解决的技术问题是:提供一种面向长文本的语义匹配方法及系统,用以解决现有技术中的文本语义理解方法的效果不理想的问题。
为解决上述问题,本发明采用的技术方案是:面向长文本的语义匹配方法,包括:
步骤s1:对输入文本进行数据处理,包括去掉特殊字符、分词和分字;
步骤s2:将经过数据处理后的输入文本映射成为数值序列;
步骤s3:将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量;
步骤s4:将数据库中的每条数据都经过步骤s1,步骤s2,步骤s3获取其各自的特征向量,并基于特征向量进行聚类;
步骤s5:基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据;
步骤s6:将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据。
进一步的,步骤s1具体可包括:去掉输入文本中的无效字符,接着将输入文本转换为以字为单位的文本序列,和以词单位的文本序列。
进一步的,步骤s2可包括:
步骤s21:基于数据库中的数据进行词向量训练,并产生字典,得到词向量模型;
步骤s22:基于词向量模型,将分词后的文本映射为以词为单位的数值序列;
步骤s23:基于字典,将分字后的文本映射为以字为单位的数值序列。
进一步的,所述特征提取模型可包含多个子特征提取模块,特征提取的输出结果是多个子特征提取模型输出结果的融合。
进一步的,步骤s5可基于已聚类的数据库,搜索输入文本的特征向量周围邻近群的数据,将这部分数据作为输入文本的相似候选集。
进一步的,步骤s6可将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算,并对结果进行排序,挑选出输入文本最相似的TOP-K个相似数据集。
面向长文本的语义匹配系统,包括:
文本处理模块,用于对输入文本进行数据处理,包括去掉特殊字符、分词和分字;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082442.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微波烧结用辅热保温装置
- 下一篇:异丙基硫杂蒽酮的制备方法