[发明专利]基于开放域信息抽取的人物行为抽取方法在审
申请号: | 201911236862.3 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111061832A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 韩伟红;王志超;陈雷霆;林长海;曾浩华 | 申请(专利权)人: | 电子科技大学广东电子信息工程研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/253;G06F40/295;G06N20/10 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 潘俊达;郭宝煊 |
地址: | 523000 广东省东莞市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 开放 信息 抽取 人物 行为 方法 | ||
本发明属于信息抽取技术领域,具体涉及基于开放域信息抽取的人物行为抽取方法,包括步骤:a、使用CoreNLP工具的Open IE功能生成三元组,三元组对应有元素,元素包括主语、谓语、宾语、时间、地点、间接宾语和其他;其中,t的下标代表三元组的分组号,t的上标代表三元组在组内的序号;b、将表示同一元素的三元组聚合到一起形成分组;c、从分组后的三元组中获取最佳三元组代表其描述的元素;d、将剩余的三元组进行二次分组;e、将三元组的宾语进行分类;f、构建行为链。与现有技术相比,本发明能比较准确的识别出相应的行为元素,并且,使用人物行为抽取能够有效提高文本的利用率,发现更多的人物、机构、地点之间的互动关系。
技术领域
本发明属于信息抽取技术领域,具体涉及基于开放域信息抽取的人物行为抽取方法。
背景技术
随着各种自然语言处理技术的发展和成熟,自然语言抽取的目标和方向正在不断地深入和拓展。在人物关系抽取这一方向上,意在从一句或一段自由文本中,发现人物与其他人物、机构、地点之间是否表示二者之间有关系并能够正确分类。目前,由于隐含人物关系的文本在开源互联网数据中占的比例极低,而剩余部分文本中,用于表征人物动作、行为的句子对于人物关系推理、性格特点分析等方面都有着重要作用。
有鉴于此,有必要提出一种人物行为抽取方法,以满足实际的需求。
发明内容
本发明的目的在于:针对现有技术的不足,而提供的基于开放域信息抽取的人物行为抽取方法,能比较准确的识别出相应的行为元素,并且,使用人物行为抽取能够有效提高文本的利用率,发现更多的人物、机构、地点之间的互动关系。
为实现上述目的,本发明采用如下技术方案:
基于开放域信息抽取的人物行为抽取方法,包括以下步骤:
a、使用CoreNLP工具的Open IE功能生成三元组所述三元组对应有元素,所述元素包括主语、谓语、宾语、时间、地点、间接宾语和其他;其中,t的下标代表三元组的分组号,t的上标代表三元组在组内的序号;
b、将表示同一元素的三元组聚合到一起形成分组;
c、从分组后的三元组中获取最佳三元组代表其描述的元素;
d、将剩余的三元组进行二次分组;
e、将三元组的宾语进行分类;
f、构建行为链结构。
需要说明的是,CoreNLP工具是斯坦福大学出品的自然语言工具包,CoreNLP是斯坦福大学2010年开源的一个完整独立的用于自然语言处理的框架,除了词性标注、命名实体识别、句法依赖分析外,CoreNLP还有原词发现、指代消解、基于规则的关系抽取、开放域关系抽取、情感分析等功能。
其中,本发明步骤f中的链式结构是使用行为链来表示一个连贯的行为,链中前一个行为会使用指针指向一个新的行为;在实际操作时,可以采用Titan图数据库,支持双向查询,在链式结构中只需要单向设置指针,即可以实现全链的搜索,实现人物行为的抽取。
作为对本发明中所述的基于开放域信息抽取的人物行为抽取方法的改进,所述步骤a中具体还包括对三元组做预处理,若主语、谓语或宾语的核心词是一个命名实体,则这个元素只保留命名实体,其他的成分作为一个新的三元组。一般的知识图谱更加倾向于构造一个“实体级别”的数据库。简单来说,以实体为节点,实体与实体之间的关系为边,实体的属性作为节点的附加属性来进行存储。然而,在Open IE得到的三元组中,它们的主语、谓语、宾语元素如果核心词实体,并且句子中有修饰这个实体的修饰词,那么这个元素就更倾向于包含了实体的修饰成分,不利于数据插入到数据库中。因此在这一步,系统对三元组做了预处理。
作为对本发明中所述的基于开放域信息抽取的人物行为抽取方法的改进,所述步骤b中表示同一元素的三元组具有相同偏移量的词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学广东电子信息工程研究院,未经电子科技大学广东电子信息工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911236862.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑物外墙降噪结构
- 下一篇:一种适用于次生林地的有害藤本综合防治方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置