[发明专利]一种事件元素提取方法和装置有效
申请号: | 202010529388.X | 申请日: | 2020-06-11 |
公开(公告)号: | CN111666379B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 彭绪坤 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 元素 提取 方法 装置 | ||
1.一种事件元素提取方法,其特征在于,包括:
获取待提取事件元素的文本集,所述文本集中包括至少一个文本;
对文本集中的文本进行实体提取,得到文本集对应的实体词;
对目标文本中的实体词进行字标识,得到所述实体词对应的标识字;
根据所述标识字在目标文本中的位置信息,确定所述标识字对应的上下文词范围;
基于所述上下文词范围内的原始字、以及所述标识字,构建所述目标文本对应的字序列,所述字序列中包括目标文本的原始字、以及所述实体词对应的标识字;
计算所述字序列中每个字在所有目标文本中出现的频次;
从所述字序列的字中确定频次大于预设频次的字作为初始频繁字,得到初始频繁字序列;基于所述初始频繁字序列,对所述字序列进行过滤处理,得到处理后字序列;
将所述初始频繁字序列中的字作为前缀字,确定所述前缀字在所述处理后字序列中对应的后缀字;
当所述前缀字中包括所述标识字、且所述后缀字中包括所述标识字时,基于所述后缀字构建所有目标文本对应的频繁字序列,所述频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;
获取所述频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息;
基于所述包含关系信息、以及所述词性信息,对所述频繁字序列进行筛选,得到目标频繁字序列;
根据所述词性信息,从目标频繁字序列中确定与所述标识字关联的关联关系词;
输出所述文本集对应的事件元素,所述事件元素包括所述实体词、以及所述关联关系词。
2.根据权利要求1所述的方法,其特征在于,所述对文本集中的文本进行实体提取,得到文本集对应的实体词,包括:
对文本集中的文本进行分字处理,得到文本的字;
生成文本集中文本的字对应的字向量;
采用预设实体提取模型,基于文本中字对应的字向量,标注文本中字对应的字类别,所述字类别包括实体词字类别、非实体词字类别;
基于文本中字对应的字类别,确定文本集对应的实体词。
3.根据权利要求2所述的方法,其特征在于,所述基于文本中字对应的字类别,确定文本集对应的实体词,包括:
基于文本中字对应的字类别,从文本的字中确定作为实体词的目标字;
根据所述目标字,构建文本集对应的实体词。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对样本文本集中的样本文本进行分字处理,得到样本文本的样本字;
获取所述样本字对应的样本字类别,所述样本字类别包括样本实体词字类别、以及非样本实体词字类别;
采用实体提取模型,基于样本字对应的样本字向量,标注所述样本字对应的预测字类别;
基于所述样本字类别、以及所述预测字类别,对所述实体提取模型进行训练,得到预设实体提取模型。
5.根据权利要求2所述的方法,其特征在于,所述预设实体提取模型包括概率预测层和类别标注层,所述采用预设实体提取模型,基于文本中字对应的字向量,标注文本中字对应的字类别,包括:
通过所述概率预测层,基于文本中字对应的字向量,预测文本中字为实体词字类别的实体类别概率、以及为非实体词字类别的非实体类别概率;
通过所述类别标注层,基于所述实体类别概率、以及非实体类别概率,标注文本中字对应的字类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010529388.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种去异味型洗衣凝珠及其制备方法
- 下一篇:一种消防喷淋头网状喷洒灭火系统