[发明专利]一种基于论元结构的事件观点挖掘方法在审
申请号: | 202210031265.2 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114528830A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 徐若曦;林鸿宇;韩先培;孙乐 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06F16/33;G06F40/126 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 事件 观点 挖掘 方法 | ||
本发明公开了一种基于论元结构的事件观点挖掘方法,其步骤包括:1)对于给定的事件e和文档d,从文档d中提取所有与给定事件e有关的观点片段;2)针对每一所述观点片段,从事件e中提取表达观点的事件子结构作为对应所述观点片段的观点对象;3)根据步骤2)的处理结果,得到事件e的事件观点集合T={…,(ok,ak),…|e,d};其中,ok是文档d中的第k个观点片段;ak是观点ok对应的观点对象。本发明不局限于带情感的观点、不局限于获得针对事件本身的观点,能够获得更丰富的观点信息,包括针对事件本身、事件参与者、事件子事件以及相关事件的观点。
技术领域
本发明涉及观点挖掘任务,特别是涉及以事件为中心的观点挖掘任务,属于自然语言处理技术领域。
背景技术
观点挖掘是自然语言处理中的一个关键任务,旨在从给定的文本中识别人们对于实体、事件及其子结构的观点和情感。例如,给定句子“XX手机的速度很快”,一个观点挖掘系统应当能够识别出“很快”是作者针对“XX手机”的“速度”的观点。
近年来,由于事件的结构难以划分,人们专注于基于实体及其属性的观点挖掘,将其定义为从给定的文本中提取(属性,观点,类型,情感)四元组。例如,在句子“XX手机的速度很快”中,一个以实体为中心的观点挖掘系统将提取出(“速度”,“很快”,性能,正面)的观点四元组。以实体为中心的观点挖掘任务从观点或属性单元素提取发展到四元组提取,已经发展的比较成熟。
然而,以实体为中心的观点挖掘任务的任务定义和模型都不能直接应用到以事件为中心的观点挖掘任务当中。首先,以实体为中心的观点主要关注观点持有者的情感极性,而以事件为中心的观点更关注非情感的预测、判断或建议等。第二,以事件为中心的观点有更复杂的结构。给定事件,人们可以表达他们对事件本身、子事件、相关事件和相关实体的看法。第三,以事件为中心的观点具有独特的表达特点。以事件为中心的观点的目标通常不会直接出现在观点文本当中,而以实体为中心的观点的目标通常是显式的。以事件为中心的观点通常出现在长篇新闻和文章当中,其中混杂着大量的事实信息。与之相反,以实体为中心的观点主要出现在简短而集中的评论或者任务当中。因此,需要设计一种以事件为中心的观点挖掘理论框架,使得针对事件的观点能够被细粒度挖掘。
发明内容
为克服现有技术中观点挖掘任务无法细粒度挖掘以事件为中心的观点的不足,本发明提出了一种基于论元结构的事件观点挖掘方法,内容包括:1.基于表示分类理论的观点定义; 2.基于论元结构的事件结构划分;3.基于上述观点定义和事件结构的以事件为中心的观点挖掘新任务;4.基于上述任务定义的两阶段任务框架。基于表示分类理论的观点定义能够突破传统观点挖掘任务只研究表达情感的观点的限制,更深入地探究对于事件来说更有价值的观点类别,包括判断、态度、信仰、情感以及建议五个类别。基于论元结构的事件结构划分使得针对事件的观点能够被细粒度挖掘。
本发明的技术方案为:
一种基于论元结构的事件观点挖掘方法,其步骤包括:
1)对于给定的事件e和文档d,从文档d中提取所有与给定事件e有关的观点片段;
2)针对每一所述观点片段,从事件e中提取表达观点的事件子结构作为对应所述观点片段的观点对象;
3)根据步骤2)的处理结果,得到事件e的事件观点集合T={…,(ok,ak),…|e,d};其中, ok是文档d中的第k个观点片段;ak是观点ok对应的观点对象。
进一步的,所述观点片段的观点对象包括事件本身、事件子事件和事件参与者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210031265.2/2.html,转载请声明来源钻瓜专利网。