[发明专利]基于doc2vec的文本匹配方法、装置及电子设备在审
申请号: | 202010492263.4 | 申请日: | 2020-06-02 |
公开(公告)号: | CN111708863A | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 王传鹏;陈春梅;李匡宇 | 申请(专利权)人: | 上海硬通网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈志明 |
地址: | 201800 上海市嘉定*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 doc2vec 文本 匹配 方法 装置 电子设备 | ||
1.一种基于doc2vec的文本匹配方法,其特征在于,包括:
根据doc2vec模型,对目标文本集中各目标文本均进行n次向量转换,获取各目标向量集;其中,所述目标向量集包括n个目标向量;
将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本。
2.根据权利要求1所述的一种基于doc2vec的文本匹配方法,其特征在于,所述将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本,包括:
对所述目标向量集的n个目标向量进行加权平均,生成特征向量;
将各所述目标文本对应的各所述特征向量与所述句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述特征向量对应的目标文本作为所述匹配文本。
3.根据权利要求1所述的一种基于doc2vec的文本匹配方法,其特征在于,所述将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本,包括:
获取所述目标向量集的n个目标向量分别与所述句子向量进行相似度匹配后的n个分值,对所述n个分值进行加权平均,生成匹配分值;
从各所述目标文本对应的各所述匹配分值中获取最大的匹配分值,提取与所述最大的匹配分值对应的目标文本作为所述匹配文本。
4.根据权利要求3所述的一种基于doc2vec的文本匹配方法,其特征在于,所述对n个分值进行加权平均,包括:
提取所述n个分值中大于预设阈值的k个分值进行加权平均,生成所述匹配分值。
5.根据权利要求1所述的一种基于doc2vec的文本匹配方法,其特征在于,在所述根据doc2vec模型,对数据库的目标文本集中任一目标文本进行n次向量转换之前,还包括:
对所述输入文本进行文本分类,确定所述输入文本在数据库中对应的文本类别后,提取在所述文本类别下的所述目标文本集。
6.根据权利要求5所述的一种基于doc2vec的文本匹配方法,其特征在于,所述对所述输入文本进行文本分类,确定所述输入文本在所述数据库中对应的文本类别,包括:
将所述输入文本与预存的历史文本集进行文本匹配,获取所述历史文本集中与所述输入文本的相似度最高的历史文本;其中,所述历史文本通过获取所述终端的历史输入记录生成;
根据所述历史文本在所述数据库中对应的文本类别,确实所述输入文本的文本类别。
7.根据权利要求5所述的一种基于doc2vec的文本匹配方法,其特征在于,所述对所述输入文本进行文本分类,确定所述输入文本在所述数据库中对应的文本类别,包括:
获取预存的历史文本集中各历史文本的文本类别;
将所述输入文本与所述各历史文本进行KNN运算,确定所述输入文本的文本类别。
8.一种基于doc2vec的文本匹配装置,其特征在于,包括:
向量获取模块,用于根据doc2vec模型,对目标文本集中各目标文本均进行n次向量转换,获取各目标向量集;其中,所述目标向量集包括n个目标向量;
向量匹配模块,用于将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本。
9.根据权利要求7所述的基于doc2vec的文本匹配装置,其特征在于,还包括:
数据分类模块,用于对所述输入文本进行文本分类,确定所述输入文本在数据库中对应的文本类别;
提取在所述文本类别下的任一文本作为所述目标文本。
10.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于doc2vec的文本匹配方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海硬通网络科技有限公司,未经上海硬通网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010492263.4/1.html,转载请声明来源钻瓜专利网。