[发明专利]事件触发词的识别方法、装置、电子设备有效
申请号: | 201811397484.2 | 申请日: | 2018-11-22 |
公开(公告)号: | CN110162771B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 刘树林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/284;G06F40/30;G06F40/211;G06N3/0895 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 触发 识别 方法 装置 电子设备 | ||
1.一种事件触发词的识别方法,其特征在于,包括:
获取多个文本,对所述文本进行分词和词性标注以根据所有分词词汇形成标有词性信息的词序列,并根据所述文本的事件类型确定所述文本的主题;
对所述标有词性信息的词序列中的命名实体进行匿名操作,仅保留所述命名实体的类型信息,并基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵,其中,所述词汇-主题分布矩阵包括所述词汇、所述主题和所述词汇对应的主题的分布,所述词汇为所述词序列中的词汇,所述主题与所述事件类型相对应;
将目标文本的主题与所述词汇-主题分布矩阵进行匹配,若所述词汇-主题分布矩阵中存在与所述目标文本的主题匹配的匹配主题,则根据所述词汇-主题分布矩阵中词汇对应的主题的分布抽取所述词汇-主题分布矩阵中与所述匹配主题相关度最高的词汇作为所述目标文本中的事件触发词。
2.根据权利要求1所述的事件触发词的识别方法,其特征在于,所述主题包括第一主题和第二主题,所述第一主题为与所述文本中目标事件的触发相关的主题,所述第二主题为与所述目标事件的触发不相关的主题。
3.根据权利要求1所述的事件触发词的识别方法,其特征在于,基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵,包括:
将所述文本中的词汇所对应的主题分布限定于所述主题上;
通过所述文本主题生成模型对所述文本进行处理以获得所述词汇-主题分布矩阵。
4.根据权利要求3所述的事件触发词的识别方法,其特征在于,通过所述文本主题生成模型对所述文本进行处理以获得所述词汇-主题分布矩阵,包括
通过所述文本主题生成模型为所述文本的各词汇位置生成目标主题;
根据所述目标主题,通过所述文本主题生成模型为所述文本的各词汇位置生成目标词汇,其中所述目标主题的分布和所述目标词汇的分布均服从多项式分布;
根据所述目标主题和所述目标词汇确定所述词汇-主题分布矩阵。
5.根据权利要求4所述的事件触发词的识别方法,其特征在于,根据所述目标主题,通过所述文本主题生成模型为所述文本的各词汇位置生成目标词汇,包括:
获取所述文本的事件类型的数量,并对所述文本的事件类型进行编号;
根据所述文本中的词汇量确定第一超参数;
根据所述第一超参数确定第一参数,所述第一参数为目标主题-目标词汇的分布的参数;
根据所述目标主题和所述第一参数确定所述目标词汇。
6.根据权利要求4或5所述的事件触发词的识别方法,其特征在于,通过所述文本主题生成模型为所述文本的各词汇位置生成目标主题,包括:
根据所述文本的事件类型确定第二超参数;
根据所述第二超参数确定第二参数,所述第二参数为词汇位置-目标主题的分布的参数;
根据所述词汇位置和所述第二参数确定所述目标主题。
7.根据权利要求1所述的事件触发词的识别方法,其特征在于,将目标文本的主题与所述词汇-主题分布矩阵进行匹配,包括:
根据所述目标文本的事件类型确定所述目标文本的主题;
将所述目标文本的主题与所述词汇-主题分布矩阵进行匹配。
8.根据权利要求1所述的事件触发词的识别方法,其特征在于,所述方法还包括:
对所述目标文本进行分词获取目标词序列,并对所述目标词序列中的词汇标注词性信息;
根据所述词性信息对所述词汇进行筛选,以获取候选触发词集合;
根据所述词汇-主题分布矩阵和所述目标文本的事件类型从所述候选触发词集合中确定所述事件触发词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811397484.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种词扩展方法、装置、设备及介质
- 下一篇:命名实体识别方法及装置