[发明专利]一种词汇挖掘方法及装置有效
申请号: | 201710169796.7 | 申请日: | 2017-03-21 |
公开(公告)号: | CN108628821B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 李潇;张锋;王策 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词汇 挖掘 方法 装置 | ||
本申请公开了一种词汇挖掘方法及装置,在语料句子中确定所包含的实体词集合和候选上位词集合,将两个集合中的词两两组合,得到候选词对,进一步确定候选词对中实体词和候选上位词各自的词向量,并根据词向量对来确定候选词对是否为词汇挖掘结果,示例如,确定候选词对是否为上位词对。本申请不需要人工整理语料,通过机器学习方式实现了上位词对的自动挖掘,其上位词对挖掘效率大大提升,降低了挖掘成本。
技术领域
本申请涉及数据挖掘技术领域,更具体地说,涉及一种词汇挖掘方法及装置。
背景技术
上位词的含义是,如果一个实体词A和一个词B包含上下位关系,实体词A属于词B的下位,则词B就是实体词A的上位词。例如,“动物”是“老虎”的上位词。在此基础上,由构成上下位关系的实体词A和词B组成的词对称之为上位词对。如,《老虎、动物》构成一个上位词对。
在大量的语料中挖掘出上位词对,能够帮助进行篇章分析等工作。现有的上位词对挖掘方法一般是人工对语料进行语义分析,从中确定上位词对。显然,人工挖掘的方式效率低下,并且需要挖掘人员具备一定的领域知识,人工成本高。
发明内容
有鉴于此,本申请提供了一种词汇挖掘方法及装置,用于实现低成本、高效率的上位词对的挖掘。
为了实现上述目的,现提出的方案如下:
一种词汇挖掘方法,包括:
针对待挖掘语料所包含的每一句子,确定所述句子所包含的实体词集合,以及由所述句子所包含的名词及名词短语组成的候选上位词集合;
将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合,实体词和候选上位词组合后的词对作为候选词对;
确定所述候选词对中实体词和候选上位词各自的词向量,由所述各自的词向量组成候选词向量对;
根据所述候选词向量对,确定所述候选词对是否为词汇挖掘结果。
一种词汇挖掘装置,包括:
集合确定单元,用于针对待挖掘语料所包含的每一句子,确定所述句子所包含的实体词集合,以及由所述句子所包含的名词及名词短语组成的候选上位词集合;
候选词对确定单元,用于将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合,实体词和候选上位词组合后的词对作为候选词对;
词向量确定单元,用于确定所述候选词对中实体词和候选上位词各自的词向量,由所述各自的词向量组成候选词向量对;
上位词确定单元,用于根据所述候选词向量对,确定所述候选词对是否为词汇挖掘结果。
本申请实施例提供的词汇挖掘方法,针对待挖掘语料所包含的每一句子,确定所述句子所包含的实体词集合,以及由所述句子所包含的名词及名词短语组成的候选上位词集合;将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合,实体词和候选上位词组合后的词对作为候选词对;确定所述候选词对中实体词和候选上位词各自的词向量,由所述各自的词向量组成候选词向量对;根据所述候选词向量对,确定所述候选词对是否为词汇挖掘结果。本申请在语料句子中确定所包含的实体词集合和候选上位词集合,将两个集合中的词两两组合,得到候选词对,进一步确定候选词对中实体词和候选上位词各自的词向量,并根据词向量对来确定候选词对是否为词汇挖掘结果,示例如,确定候选词对是否为上位词对。本申请不需要人工整理语料,通过机器学习方式实现了上位词对的自动挖掘,其上位词对挖掘效率大大提升,降低了挖掘成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710169796.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:短文本问答形式的通信方法
- 下一篇:无语义文本的识别方法及装置