[发明专利]相似文本确定方法及相关设备有效
申请号: | 202110071000.0 | 申请日: | 2021-01-19 |
公开(公告)号: | CN112395886B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 李小娟 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194;G06F40/289;G06K9/62 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 文本 确定 方法 相关 设备 | ||
1.一种相似文本确定方法,其特征在于,所述相似文本确定方法包括:
接收相似文本确定请求,并根据所述相似文本确定请求确定待检测文本;
从所述相似文本确定请求中获取目标文本;
对所述待检测文本进行分词处理,得到多个待检测分词,并对所述目标文本进行分词处理,得到多个目标分词;
获取所述多个待检测分词与所述多个目标分词的并集,得到所有分词;
根据所述多个待检测分词及所述多个目标分词生成待检测特征向量,并根据所述多个待检测分词及所述多个目标分词生成目标特征向量;
计算所述待检测特征向量与所述目标特征向量的相似度,得到所述待检测文本与所述目标文本的文本相似度,并将所述多个待检测分词与所述多个目标分词的交集确定为共现词语;
计算所述共现词语的共现数量,并计算所述所有分词的分词总量;
将所述共现数量除以所述分词总量,得到相似系数;
根据所述待检测文本的语气与所述目标文本的语气确定所述待检测文本与所述目标文本的极性特征;
根据所述文本相似度、所述相似系数及所述极性特征生成所述待检测文本与所述目标文本的文本特征;
将所述待检测文本转换为待检测语义向量,并将所述目标文本转换为目标语义向量;
根据所述待检测语义向量及所述目标语义向量生成所述待检测文本与所述目标文本的语义特征,并根据所述文本特征及所述语义特征确定所述待检测文本与所述目标文本的相似结果。
2.如权利要求1所述的相似文本确定方法,其特征在于,所述根据所述相似文本确定请求确定待检测文本包括:
解析所述相似文本确定请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取用于指示位置的信息作为存储位置;
从所述存储位置中确定待检测文本库,并从所述待检测文本库中提取任意文本作为所述待检测文本。
3.如权利要求1所述的相似文本确定方法,其特征在于,所述根据所述多个待检测分词及所述多个目标分词生成待检测特征向量包括:
根据所述多个待检测分词与所述所有分词的映射关系生成所述待检测特征向量。
4.如权利要求1所述的相似文本确定方法,其特征在于,所述根据所述待检测文本的语气与所述目标文本的语气确定所述待检测文本与所述目标文本的极性特征包括:
检测所述待检测文本中是否包含预设词语,得到第一检测结果,并检测所述目标文本中是否包含所述预设词语,得到第二检测结果,所述预设词语用于指示否定语气;
根据所述第一检测结果确定所述待检测文本的第一语气,并根据所述第二检测结果确定所述目标文本的第二语气;
若所述第一语气与所述第二语气相同,将所述极性特征确定为第一数值;或者
若所述第一语气与所述第二语气不同,将所述极性特征确定为第二数值。
5.如权利要求1所述的相似文本确定方法,其特征在于,所述将所述待检测文本转换为待检测语义向量包括:
将所述待检测文本转换为字向量序列;
利用正向长短期记忆网络对所述字向量序列进行特征抽取,得到第一特征向量;
利用反向长短期记忆网络对所述字向量序列进行特征抽取,得到第二特征向量;
拼接所述第一特征向量及所述第二特征向量,得到所述待检测语义向量。
6.如权利要求1所述的相似文本确定方法,其特征在于,所述根据所述待检测语义向量及所述目标语义向量生成所述待检测文本与所述目标文本的语义特征包括:
将所述待检测语义向量减去所述目标语义向量,得到差向量;
拼接所述待检测语义向量、所述目标语义向量及所述差向量,得到拼接语义向量;
利用预先构建好的多层隐层对所述拼接语义向量进行迭代映射,得到所述语义特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110071000.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:视频数据处理方法及设备
- 下一篇:一种带电子标签的轮胎硫化胶囊及其制备方法