[发明专利]一种上位词检测方法及设备有效
申请号: | 201710172589.7 | 申请日: | 2017-03-21 |
公开(公告)号: | CN108304366B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 李潇;张锋;王策 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 上位 检测 方法 设备 | ||
1.一种上位词检测方法,其特征在于,包括:
从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,所述目标候选对包括目标实体词和目标实体词对应的候选上位词;
根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量;
从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词的第二词向量;
将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并,生成目标向量;
采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词。
2.根据权利要求1所述的方法,其特征在于,所述从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合之前,还包括:
从预存句子集合中提取多个实体词,并生成包含所述多个实体词的实体词集合;
采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词,并生成包含所述多个候选上位词的候选上位词集合;
将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合,生成候选对。
3.根据权利要求2所述的方法,其特征在于,所述预设词性为名词和名词短语中的至少一项。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量,包括:
根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵;
根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量。
5.根据权利要求4所述的方法,其特征在于,所述根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵,包括:
对所述候选句子集合中的每个候选句子进行分词,以提取所述每个候选句子中包含的至少一个分词,并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量;
按照所述每个分词在所述每个候选句子中的排列顺序,将所述每个分词对应的词向量进行组合,生成所述每个候选句子对应的句子矩阵。
6.根据权利要求4所述的方法,其特征在于,所述根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量,包括:
基于用于上位词检测的时间递归神经网络,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,确定所述每个候选句子对应的句子向量;
对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均,生成所述候选句子集合对应的句子集合向量。
7.根据权利要求1所述的方法,其特征在于,所述预设分类器包含第一分类和第二分类,所述第一分类表示所述候选上位词是所述目标实体词的上位词;所述第二分类表示所述候选上位词不是所述目标实体词的上位词;
所述采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词,包括:
若采用预设分类器计算的所述第一分类对应的分类值大于所述第二分类对应的分类值,则确定所述候选上位词是所述目标实体词的上位词;
若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第二分类对应的分类值,则确定所述候选上位词不是所述目标实体词的上位词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710172589.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:关键词提取方法及装置
- 下一篇:分词方法及装置