[发明专利]面向长文本的语义匹配方法及系统有效

申请号：	201911082442.4	申请日：	2019-11-07
公开（公告）号：	CN110825852B	公开（公告）日：	2022-06-14
发明（设计）人：	杨兰;展华益;孙锐;周兴发;饶璐;谭斌	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289;G06F40/30;G06K9/62;G06N3/04
代理公司：	成都虹桥专利事务所(普通合伙) 51124	代理人：	陈立志
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向文本语义匹配方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及自然语言理解技术领域，公开了一种面向长文本的语义匹配方法及系统，用以解决现有技术中的文本语义理解方法的效果不理想的问题。本发明的方法包括：对输入文本进行数据处理，包括去掉特殊字符、分词和分字；将经过数据处理后的输入文本映射成为数值序列；将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量；基于特征向量进行聚类；基于已聚类的数据库，从数据库中挑选出与输入文本最相似的TOP‑N类候选数据；将输入文本的特征向量与所述候选数据的特征向量进行相似性度量，从所述候选数据中选出与输入文本最相似的TOP‑K个数据。本发明适用于长文本的语义匹配。

技术领域

本发明涉及自然语言理解技术领域，特别涉及面向长文本的语义匹配方法及系统。

背景技术

作为人工智能领域中重要方向之一的自然语言理解技术，一直是相关领域研究人员研究的热点。特别是近年来，随着移动互联网技术的迅速发展，信息化程度日益提高，人们越发渴望能让机器理解自然语言，从而实现减少人工投入、海量数据共享等目标。

相关技术中，主流方法是基于循环神经网络的文本语义理解方法和基于卷积神经网络的文本语义理解方法。但是，通常的循环神经网络和卷积神经网络都难以优化，具体而言，如果不增加深度，文本语义理解效果较差，而如果增加深度，训练和优化的错误率就会增加，难以得到准确的训练模型，从而语义理解错误率也较高。因此，相关技术中的文本语义理解方法的效果并不理想。

发明内容

本发明要解决的技术问题是：提供一种面向长文本的语义匹配方法及系统，用以解决现有技术中的文本语义理解方法的效果不理想的问题。

为解决上述问题，本发明采用的技术方案是：面向长文本的语义匹配方法，包括：

步骤s1：对输入文本进行数据处理，包括去掉特殊字符、分词和分字；

步骤s2：将经过数据处理后的输入文本映射成为数值序列；

步骤s3：将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量；

步骤s4：将数据库中的每条数据都经过步骤s1，步骤s2，步骤s3获取其各自的特征向量，并基于特征向量进行聚类；

步骤s5：基于已聚类的数据库，从数据库中挑选出与输入文本最相似的TOP-N类候选数据；

步骤s6：将输入文本的特征向量与所述候选数据的特征向量进行相似性度量，从所述候选数据中选出与输入文本最相似的TOP-K个数据。

进一步的，步骤s1具体可包括：去掉输入文本中的无效字符，接着将输入文本转换为以字为单位的文本序列，和以词单位的文本序列。

进一步的，步骤s2可包括：

步骤s21：基于数据库中的数据进行词向量训练，并产生字典，得到词向量模型；