[发明专利]相似文本确定方法及相关设备有效

申请号：	202110071000.0	申请日：	2021-01-19
公开（公告）号：	CN112395886B	公开（公告）日：	2021-04-13
发明（设计）人：	李小娟	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/194;G06F40/289;G06K9/62
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	杨毅玲;刘丽华
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	相似文本确定方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能，提供一种相似文本确定方法及相关设备。该方法能够确定待检测文本及目标文本，生成待检测特征向量及目标特征向量，计算待检测特征向量与目标特征向量的相似度，确定相似系数及极性特征，根据文本相似度、相似系数及极性特征生成文本特征，将待检测文本转换为待检测语义向量，并将目标文本转换为目标语义向量，生成待检测文本与目标文本的语义特征，根据文本特征及语义特征确定相似结果。本发明能够提高相似文本的确定准确率。此外，本发明还涉及区块链技术，所述相似结果可存储于区块链中。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种相似文本确定方法及相关设备。

背景技术

目前，在传统的无监督文本相似度算法中，通过文字的共现信息确定句子的相似度，然而，如果在文本中出现了同词异义或者同义异词的词语，则无法准确计算出两个文本之间的相似度，从而导致相似文本确定的准确率降低，为了克服上述的缺陷，深度文本相似算法随之产生，在目前的深度文本相似算法中，通过编码层将句子映射到语义空间进而计算出文本的相似度，然而，如果出现了文本信息相近但是含义相反的文本，会造成相似文本的确定准确率低下。

发明内容

鉴于以上内容，有必要提供一种相似文本确定方法及相关设备，能够提高相似文本的确定准确率。

一方面，本发明提出一种相似文本确定方法，所述相似文本确定方法包括：

接收相似文本确定请求，并根据所述相似文本确定请求确定待检测文本；

从所述相似文本确定请求中获取目标文本；

根据所述待检测文本及所述目标文本生成待检测特征向量，并根据所述待检测文本及所述目标文本生成目标特征向量；

计算所述待检测特征向量与所述目标特征向量的相似度，得到所述待检测文本与所述目标文本的文本相似度，并根据所述待检测文本及所述目标文本确定相似系数；

根据所述待检测文本的语气与所述目标文本的语气确定所述待检测文本与所述目标文本的极性特征；

根据所述文本相似度、所述相似系数及所述极性特征生成所述待检测文本与所述目标文本的文本特征；

将所述待检测文本转换为待检测语义向量，并将所述目标文本转换为目标语义向量；

根据所述待检测语义向量及所述目标语义向量生成所述待检测文本与所述目标文本的语义特征，并根据所述文本特征及所述语义特征确定所述待检测文本与所述目标文本的相似结果。

根据本发明优选实施例，所述根据所述相似文本确定请求确定待检测文本包括：