[发明专利]一种确定文本相似度的方法和装置有效

申请号：	202010819157.2	申请日：	2020-08-14
公开（公告）号：	CN113743077B	公开（公告）日：	2023-09-29
发明（设计）人：	赵卓卓;刘洋	申请（专利权）人：	北京京东振世信息技术有限公司
主分类号：	G06F18/22	分类号：	G06F18/22;G06F40/194;G06F40/289;G06F40/30;G06F16/35;G06N3/0442;G06N3/0464;G06N3/0455;G06N3/08
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	张一军;韩黎捷
地址：	100086 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种确定文本相似方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种确定文本相似度的方法，其特征在于，包括：

分别对第一训练文本和第二训练文本进行分词，得到若干第一词和若干第二词；

按照字分别对所述第一训练文本和所述第二训练文本进行切分，得到若干第一字和若干第二字；

计算所述第一训练文本和所述第二训练文本的字符相似度；

分别对所述第一词、所述第二词、所述第一字、所述第二字进行编码，得到第一词向量、第二词向量、第一字向量和第二字向量；根据所述字符相似度，确定第一隐层向量；

将所述第一词向量、所述第二词向量、所述第一字向量、所述第二字向量和所述第一隐层向量输入预测模型，得到所述第一训练文本和所述第二训练文本的综合相似度；包括：

分别将所述第一词向量和所述第二词向量输入分类网络，得到第一词特征向量和第二词特征向量；根据所述第一词特征向量和所述第二词特征向量，确定第二隐层向量；基于自注意力机制对拼接后的所述第一字向量和所述第二字向量进行处理，得到字特征向量；根据所述字特征向量，确定第三隐层向量；将所述第一隐层向量、所述第二隐层向量和所述第三隐层向量输入包含softmax的全连接网络，得到所述第一训练文本和所述第二训练文本的综合相似度；

根据所述综合相似度和标签，训练预测模型，调整所述预测模型的参数；

根据训练后的预测模型，确定第一预测样本和第二预测样本的文本相似度。

2.如权利要求1所述的方法，其特征在于，

对所述第一字进行编码，得到所述第一字向量，包括：

确定所述第一字的字符编码；

根据所述第一字在所述第一训练文本中的位置，确定所述第一字的位置编码；

拼接所述字符编码和所述位置编码，得到所述第一字向量。

3.如权利要求1所述的方法，其特征在于，

所述根据所述第一词特征向量和所述第二词特征向量，确定第二隐层向量，包括：

根据所述第一词特征向量和所述第二词特征向量，计算所述第一词与所述第二词的词相似度；

根据所述词相似度和所述第二词特征向量，确定第一加权向量；

根据所述词相似度和所述第一词特征向量，确定第二加权向量；