[发明专利]一种词汇挖掘方法及装置有效
申请号: | 201710169796.7 | 申请日: | 2017-03-21 |
公开(公告)号: | CN108628821B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 李潇;张锋;王策 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词汇 挖掘 方法 装置 | ||
1.一种词汇挖掘方法,其特征在于,包括:
针对待挖掘语料所包含的每一句子,确定所述句子所包含的实体词集合,以及由所述句子所包含的名词及名词短语组成的候选上位词集合;
将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合,实体词和候选上位词组合后的词对作为候选词对;
确定所述句子所包含的各词的初始词向量,各词的初始词向量组成初始词向量矩阵;
利用循环神经网络模型对所述初始词向量矩阵进行调整,得到由各词的调整后词向量组成的调整后词向量矩阵;
在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量,由所述各自对应的调整后词向量组成候选词向量对;
根据所述候选词向量对,确定所述候选词对是否为词汇挖掘结果。
2.根据权利要求1所述的方法,其特征在于,所述词汇为上位词对,所述根据所述候选词向量对,确定所述候选词对是否为词汇挖掘结果,包括:
将所述候选词向量对输入至预训练的分类模型,得到所述分类模型输出的分类结果,所述分类结果表明所述候选词对是否为上位词对。
3.根据权利要求1所述的方法,其特征在于,所述确定所述句子所包含的各词的初始词向量,包括:
采用随机数确定所述句子所包含的各词的初始词向量;
或,
采用word2vec方法确定所述句子所包含的每一词对应的词向量,作为初始词向量。
4.根据权利要求1所述的方法,其特征在于,所述确定所述句子所包含的实体词集合,包括:
采用命名实体识别方法,识别所述句子所包含的实体词,各实体词组成实体词集合。
5.根据权利要求1所述的方法,其特征在于,所述循环神经网络模型包括:
双向长短期记忆人工神经网络模型。
6.一种词汇挖掘装置,其特征在于,包括:
集合确定单元,用于针对待挖掘语料所包含的每一句子,确定所述句子所包含的实体词集合,以及由所述句子所包含的名词及名词短语组成的候选上位词集合;
候选词对确定单元,用于将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合,实体词和候选上位词组合后的词对作为候选词对;
词向量确定单元,用于确定所述候选词对中实体词和候选上位词各自的词向量,由所述各自的词向量组成候选词向量对;
挖掘结果确定单元,用于根据所述候选词向量对,确定所述候选词对是否为词汇挖掘结果;
所述词向量确定单元包括:
初始词向量确定单元,用于确定所述句子所包含的各词的初始词向量,各词的初始词向量组成初始词向量矩阵;
初始词向量矩阵调整单元,用于利用循环神经网络模型对所述初始词向量矩阵进行调整,得到由各词的调整后词向量组成的调整后词向量矩阵;
调整后词向量查找单元,用于在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量,作为所述各自的词向量。
7.根据权利要求6所述的装置,其特征在于,所述词汇为上位词对,所述挖掘结果确定单元包括:
分类确定单元,用于将所述候选词向量对输入至预训练的分类模型,得到所述分类模型输出的分类结果,所述分类结果表明所述候选词对是否为上位词对。
8.根据权利要求6所述的装置,其特征在于,所述初始词向量确定单元包括:
第一初始词向量确定子单元,用于采用随机数确定所述句子所包含的各词的初始词向量;
或,
第二初始词向量确定子单元,用于采用word2vec方法确定所述句子所包含的每一词对应的词向量,作为初始词向量。
9.根据权利要求6所述的装置,其特征在于,所述集合确定单元确定所述句子所包含的实体词集合的过程,具体包括:
采用命名实体识别方法,识别所述句子所包含的实体词,各实体词组成实体词集合。
10.根据权利要求6所述的装置,其特征在于,所述循环神经网络模型包括:
双向长短期记忆人工神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710169796.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:短文本问答形式的通信方法
- 下一篇:无语义文本的识别方法及装置