[发明专利]相似文本确定方法及相关设备有效
申请号: | 202110071000.0 | 申请日: | 2021-01-19 |
公开(公告)号: | CN112395886B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 李小娟 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194;G06F40/289;G06K9/62 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 文本 确定 方法 相关 设备 | ||
本发明涉及人工智能,提供一种相似文本确定方法及相关设备。该方法能够确定待检测文本及目标文本,生成待检测特征向量及目标特征向量,计算待检测特征向量与目标特征向量的相似度,确定相似系数及极性特征,根据文本相似度、相似系数及极性特征生成文本特征,将待检测文本转换为待检测语义向量,并将目标文本转换为目标语义向量,生成待检测文本与目标文本的语义特征,根据文本特征及语义特征确定相似结果。本发明能够提高相似文本的确定准确率。此外,本发明还涉及区块链技术,所述相似结果可存储于区块链中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种相似文本确定方法及相关设备。
背景技术
目前,在传统的无监督文本相似度算法中,通过文字的共现信息确定句子的相似度,然而,如果在文本中出现了同词异义或者同义异词的词语,则无法准确计算出两个文本之间的相似度,从而导致相似文本确定的准确率降低,为了克服上述的缺陷,深度文本相似算法随之产生,在目前的深度文本相似算法中,通过编码层将句子映射到语义空间进而计算出文本的相似度,然而,如果出现了文本信息相近但是含义相反的文本,会造成相似文本的确定准确率低下。
发明内容
鉴于以上内容,有必要提供一种相似文本确定方法及相关设备,能够提高相似文本的确定准确率。
一方面,本发明提出一种相似文本确定方法,所述相似文本确定方法包括:
接收相似文本确定请求,并根据所述相似文本确定请求确定待检测文本;
从所述相似文本确定请求中获取目标文本;
根据所述待检测文本及所述目标文本生成待检测特征向量,并根据所述待检测文本及所述目标文本生成目标特征向量;
计算所述待检测特征向量与所述目标特征向量的相似度,得到所述待检测文本与所述目标文本的文本相似度,并根据所述待检测文本及所述目标文本确定相似系数;
根据所述待检测文本的语气与所述目标文本的语气确定所述待检测文本与所述目标文本的极性特征;
根据所述文本相似度、所述相似系数及所述极性特征生成所述待检测文本与所述目标文本的文本特征;
将所述待检测文本转换为待检测语义向量,并将所述目标文本转换为目标语义向量;
根据所述待检测语义向量及所述目标语义向量生成所述待检测文本与所述目标文本的语义特征,并根据所述文本特征及所述语义特征确定所述待检测文本与所述目标文本的相似结果。
根据本发明优选实施例,所述根据所述相似文本确定请求确定待检测文本包括:
解析所述相似文本确定请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取用于指示位置的信息作为存储位置;
从所述存储位置中确定待检测文本库,并从所述待检测文本库中提取任意文本作为所述待检测文本。
根据本发明优选实施例,所述根据所述待检测文本及所述目标文本生成待检测特征向量包括:
对所述待检测文本进行分词处理,得到多个待检测分词,并对所述目标文本进行分词处理,得到多个目标分词;
获取所述多个待检测分词与所述多个目标分词的并集,得到所有分词;
根据所述多个待检测分词与所述所有分词的映射关系生成所述待检测特征向量。
根据本发明优选实施例,所述根据所述待检测文本及所述目标文本确定相似系数包括:
将所述多个待检测分词与所述多个目标分词的交集确定为共现词语;
计算所述共现词语的共现数量,并计算所述所有分词的分词总量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110071000.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:视频数据处理方法及设备
- 下一篇:一种带电子标签的轮胎硫化胶囊及其制备方法