[发明专利]文本相关性的确定方法及装置有效
申请号: | 202010201255.X | 申请日: | 2020-03-20 |
公开(公告)号: | CN111382563B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 王皓;周宇超;康斌;高雪峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/126;G06F40/211;G06F40/289;G06F18/22 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 崔晓岚;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相关性 确定 方法 装置 | ||
1.一种文本相关性的确定方法,其特征在于,所述方法包括:
获取至少两个文本向量模型,所述至少两个文本向量模型包括:第一文本向量模型及第二文本向量模型;
通过各个所述文本向量模型分别对第一文本及第二文本进行向量编码,得到用于表征所述第一文本的第一文本向量、及用于表征所述第二文本的第二文本向量;
分别基于各所述文本向量模型得到的第一文本向量及第二文本向量,确定所述第一文本与所述第二文本的相似度,以得到至少两个相似度;
根据得到的所述至少两个相似度,确定所述第一文本与所述第二文本的相关性;
通过各个所述文本向量模型分别对第一文本及第二文本进行向量编码,得到用于表征所述第一文本的第一文本向量、及用于表征所述第二文本的第二文本向量,包括:
通过所述第一文本向量模型对第一文本及第二文本进行向量编码,得到用于表征所述第一文本的第一文本向量、及用于表征所述第二文本的第二文本向量;
以句子为单位,分别对所述第一文本和所述第二文本进行拆分,得到所述第一文本包括的至少两个句子和所述第二文本包括的至少两个句子;通过所述第二文本向量模型中的编码器,分别对得到的各句子对应的词序列进行编码,得到用于表征各句子的句子向量;对所述第一文本包括的至少两个句子的句子向量进行组合,得到用于表征所述第一文本的第一文本向量,以及对所述第二文本包括的至少两个句子的句子向量进行组合,得到用于表征所述第二文本的第二文本向量。
2.如权利要求1所述的方法,其特征在于,所述通过各个所述文本向量模型分别对第一文本及第二文本进行向量编码,得到用于表征所述第一文本的第一文本向量、及用于表征所述第二文本的第二文本向量,包括:
通过各个所述文本向量模型分别对目标文章进行向量编码,得到用于表征所述目标文章的第一文本向量;
通过各个所述文本向量模型分别对对应所述目标文章的评论进行向量编码,得到用于表征所述评论的第二文本向量;
所述根据得到的所述至少两个相似度,确定所述第一文本与所述第二文本的相关性,包括:
根据得到的所述至少两个相似度,确定所述目标文章与所述评论的相关性,以根据所述相关性的高低,对对应所述目标文章的至少两条评论进行优先级排序,得到优先级顺序,并根据所述优先级顺序,呈现对应所述目标文章的至少两条评论。
3.如权利要求1所述的方法,其特征在于,所述通过所述第一文本向量模型对第一文本及第二文本进行向量编码,得到用于表征所述第一文本的第一文本向量、及用于表征所述第二文本的第二文本向量,包括:
通过所述第一文本向量模型,分别对第一文本和第二文本中各个词的上下文词向量、及所述词所在段落的段落向量进行处理,得到所述第一文本中各个词的词特征向量、及所述第二文本中各个词的词特征向量;
分别根据所述第一文本中各个词的词特征向量及所述第二文本中各个词的词特征向量,生成用于表征所述第一文本的第一文本向量、及用于表征所述第二文本的第二文本向量。
4.如权利要求3所述的方法,其特征在于,所述分别对第一文本和第二文本中各个词的上下文词向量、及所述词所在段落的段落向量进行处理,得到所述第一文本中各个词的词特征向量、及所述第二文本中各个词的词特征向量,包括:
对于所述第一文本和所述第二文本中的各个词,分别执行以下操作:
获取所述词所在段落中各个词的词向量,得到所述段落的词向量集合;
将所述词向量集合划分为第一子集合和第二子集合;
将所述第一子集合中的词向量作为所述词的上下文词向量,并根据所述第二子集合中的词向量生成所述段落的段落向量;
根据所述词的上下文词向量及所述段落的段落向量,生成所述词的词特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010201255.X/1.html,转载请声明来源钻瓜专利网。