[发明专利]基于开放域信息抽取的人物行为抽取方法在审
申请号: | 201911236862.3 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111061832A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 韩伟红;王志超;陈雷霆;林长海;曾浩华 | 申请(专利权)人: | 电子科技大学广东电子信息工程研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/253;G06F40/295;G06N20/10 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 潘俊达;郭宝煊 |
地址: | 523000 广东省东莞市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 开放 信息 抽取 人物 行为 方法 | ||
1.基于开放域信息抽取的人物行为抽取方法,其特征在于,包括以下步骤:
a、使用CoreNLP工具的Open IE功能生成三元组所述三元组对应有元素,所述元素包括主语、谓语、宾语、时间、地点、间接宾语和其他;其中,t的下标代表三元组的分组号,t的上标代表三元组在组内的序号;
b、将表示同一元素的三元组聚合到一起形成分组;
c、从分组后的三元组中获取最佳三元组代表其描述的元素;
d、将剩余的三元组进行二次分组;
e、将三元组的宾语进行分类;
f、构建行为链结构。
2.根据权利要求1中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于:所述步骤a中具体还包括对三元组做预处理,若主语、谓语或宾语的核心词是一个命名实体,则这个元素只保留命名实体,其他的成分作为一个新的三元组。
3.根据权利要求1中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于:所述步骤b中表示同一元素的三元组具有相同偏移量的词。
4.根据权利要求3中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于:所述偏移量相同的词包括主语的核心词相同、谓语的核心词相同、宾语的核心词相同以及如果谓语以介词结尾,那么谓语结尾的介词相同。
5.根据权利要求1中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于:所述步骤c中在保证语义信息缺损不会引起歧义的前提下,选取最短的三元组为最佳三元组。
6.根据权利要求5中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于,所述步骤c具体包括以下步骤:
c1、创建一个人工标注的页面;
c2、利用三元组之间的包含关系构造一棵多叉树,所述多叉树满足以下条件:
其中,包含overlap是使用最长公共子序列进行计算,即第i组的第j个三元组的子节点为第i组的第k个三元组当且仅当三元组的宾语元素与三元组的宾语元素的最长公共子序列与的宾语元素相同,并且不存在第三个元素既包含于又包含于
c3、通过步骤c1中的页面对包含关系的多叉树进行分析,若多叉树上的边会导致命名实体、名词、介词、数字或从句的缺失,则去掉这条边,从保留下来的边的根节点遍历找出所有的叶子节点,并选择最短的一个作为当前组的最佳结果。
7.根据权利要求1中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于:所述步骤d中为根据三元组谓语的核心词作二次分组。
8.根据权利要求6中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于:所述步骤c1中的在页面进行人工标注时还标注了三元组的宾语在行为元素中的类别。
9.根据权利要求8中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于,所述步骤e具体包括以下步骤:
e1、获取标注的三元组的宾语数据;
e2、选择合适的特征;
e3、使用支持向量机进行机器学习方式进行分类。
10.根据权利要求9中所述的基于开放域信息抽取的人物行为抽取方法,其特征在于:所述步骤e2中的特征包括三元组宾语核心词命名实体类别、三元组宾语核心词的词性、三元组宾语核心词的依赖关系、三元组谓语末尾使用的介词以及三元组末尾介词的依赖关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学广东电子信息工程研究院,未经电子科技大学广东电子信息工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911236862.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑物外墙降噪结构
- 下一篇:一种适用于次生林地的有害藤本综合防治方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置