[发明专利]基于字向量与自注意力机制的语义相似度计算方法在审

申请号：	201810823575.1	申请日：	2018-07-25
公开（公告）号：	CN109145290A	公开（公告）日：	2019-01-04
发明（设计）人：	宋士祺;于丁文;宫俊	申请（专利权）人：	东北大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/951;G06F16/332
代理公司：	大连东方专利代理有限责任公司 21212	代理人：	王志强;李洪福
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	向量语义相似度句子注意力机制语义信息汉字知识库相似度计算方案解决模型计算位置编码向量表示准确率语料替换搜集网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于字向量与自注意力机制的语义相似度计算方法，S1、面向指定领域搜集、爬取网络语料知识库，并生成每一个汉字的字向量表示；S2、字向量依次替换句子S₁、S₂中的每一个汉字生成句向量；对句子S₁、S₂中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量；S3、对得到的语义信息向量A′₁、A′₂进行相似度计算，获得两个向量之间的语义相似度。本发明的技术方案解决了现有技术中的句子的语义相似度计算准确率与速度不足的的问题。

技术领域

本发明涉及自然语言处理技术领域，具体而言，尤其涉及一种基于字向量与自注意力机制的语义相似度计算方法。

背景技术

句子相似度计算广泛应用于信息检索、机器翻译、文本挖掘、自动问答系统等领域。如基于实例的问答系统，需要计算自然问句与数据库中实例的句子语义相似度，返回最相似问题的答案。由于中文的一词多义以及口语的灵活多变等特性，提高句子的语义相似度计算是自然语言领域一个亟待解决的问题。

传统的计算语义相似度主要分为两种：一种是基于数理统计的方法，一种是基于机器学习的方法。基于数理统计的方法是根据词频、词性等进行统计计算，并没有真正涉及语义信息的计算。基于机器学习的方法是根据知识库来建立语义关系模型，但没有完整考虑整个句子的中词与词之间的语义信息。

发明内容

根据上述提出句子的语义相似度计算准确率与速度不足的技术问题，而提供一种基于字向量与自注意力机制的语义相似度计算方法。本发明主要利用通过位置编码与自注意力机制计算可以更好的获得句子的语义信息，从而提高语义相似度计算的准确率与速度。

本发明采用的技术手段如下：

一种基于字向量与自注意力机制的语义相似度计算方法，包括：

S1、面向指定领域搜集、爬取网络语料知识库，并生成每一个汉字的字向量表示。

S2、字向量依次替换句子S₁、S₂中的每一个汉字生成句向量。

对句子S₁、S₂中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量。