[发明专利]一种基于BERT模型的文本语义相似度计算方法在审

申请号：	202011294655.6	申请日：	2020-11-18
公开（公告）号：	CN112487823A	公开（公告）日：	2021-03-12
发明（设计）人：	郑颖龙;周昉昉;刘佳木;赖蔚蔚;吴广财;郑杰生;林嘉鑫;叶杭	申请（专利权）人：	广东电力信息科技有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/284;G06F40/289;G06K9/62;G06N3/04
代理公司：	北京世誉鑫诚专利代理有限公司 11368	代理人：	任欣生
地址：	510030 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bert 模型文本语义相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开的基于BERT模型的文本语义相似度计算方法，通过对用户输入的两个句子做子词切分，得到两个子词序列，分别在两个子词序列的头部、连接处及尾部设置标记，得到完整的子词序列，将子词序列输入BERT模型，得到子词序列中各个子词对应的语义向量，将头部特殊标记对应的语义向量输入神经网络模型的全连接层，得到维度为2的语义向量，将维度为2的语义向量输入神经网络模型的Softmax层做归一化，得到两个句子相似的概率和不相似的概率，根据两个句子相似的概率和不相似的概率，确定两个句子的语义相似度，避免了因分词可能引入的错误，能够考虑文本的上下文语义，提高了语义相似度计算的精确度。

技术领域

本发明涉及文本处理技术领域，具体涉及一种基于BERT模型的文本语义相似度计算方法。

背景技术

语义相似度计算是人工智能自然语言处理领域的基础任务之一，是文本查重、智能问答等上层应用的基础支撑技术。语义相似度意在对于给定的两个文本，从语义的角度度量二者之间的相似性，通常会给出一个0到1之间的语义相似度分值，分值越高代表越相似。

现有的语义相似度方案有的基于字面进行计算，无法考虑语义上的相似性。有的方案基于Word2Vec等静态词向量计算语义相似度，无法考虑一词多义的情况，另外由于需要先进行分词，可能存在分词错误的情况，导致语义相似度计算的精确度较低。

发明内容

为解决现有技术的不足，本发明实施例提供了一种基于BERT模型的文本语义相似度计算方法，该方法包括以下步骤：

对用户输入的两个句子做子词切分，得到两个子词序列；

分别在所述两个子词序列的头部、连接处及尾部设置标记，得到完整的子词序列；

将所述子词序列输入BERT模型，得到所述子词序列中各个子词对应的语义向量；

将所述头部特殊标记对应的语义向量输入神经网络模型的全连接层，得到维度为2的语义向量，其中，所述维度为2的语义向量分别表示两个句子相似和不相似；

将所述维度为2的语义向量输入神经网络模型的Softmax层做归一化，得到两个句子相似的概率和不相似的概率；