[发明专利]一种基于图排序模型的事件核心内容自动标记方法、装置及系统有效
申请号: | 201911393738.8 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111191413B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 李建欣;毛乾任;李倩;钟盛海;朱洪东;李熙 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/211;G06F40/253;G06F40/289;G06F40/295;G06F16/33 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 排序 模型 事件 核心内容 自动 标记 方法 装置 系统 | ||
本发明通过深度学习技术,针对新闻文本的要素标记问题设计了一种基于图排序模型的事件核心内容自动标记方法及应用该方法的设备和系统,该方法包括基于句法依存树的事件关键要素抽取及核心词标记、核心事件构建、事件核心句定位并输出标记文本三个基本步骤,对文本的核心句子和核心词进行标记,从而实现新闻文本标记过程中节约人工成本以及时间成本,节省资源的技术效果。
技术领域
本发明涉及人工智能领域,尤其涉及一种基于图排序模型的事件核心内容自动标记方法。
背景技术
随着互联网技术的发展,万维网上大量的文本信息飞速增长,现有的信息化时代对于新闻的阅读而言,亟需一种“浅阅读”的阅读体验,即用户阅读新闻的需求是碎片化的、概要式新闻内容。并且随着移动互联网设备的普及,移动设备端的屏幕对于新闻阅读的内容和展示也要求是碎片化的、概要式的。特别是对于一些社会事件的在媒体上报道内容的呈现需要展示出关键的信息,如时间、地点、人物、事件的影响等关键要素。目前针对事件这个角度对于事件的关键句抽取包括核心要素标记研究相对较少,基本处于人工编辑标记的方式,再用以展示给阅读用户。这种方式需要大量的人力物力,耗时且低效。
新闻作为一种以叙事为主的文体,它的基本要素和我们语文界常用的记叙文的六要素是一致的。新闻六要素为时间、地点、人物、事件的起因、经过、结果。即五个“W”和一个“H”即Who(何人)、What(何事)、When(何时)、Where(何地)、Why(何因)、How(如何)。对于新闻报道而言,目前没有一套自动化的方法与装置实现针对事件核心要素与事件重要内容的自动标记方法,而自动标记对于自动从新闻报道中提取事件的描述,并且事件描述的内容中实现对于事件关键信息的标记能够提升用于对于事件最直观的信息的捕捉,提升用于的体验。
发明内容
针对目前核心要素自动标记方法研究较少的问题,本发明进行深入研究,希望实现对新闻文本进行自动标记,减少标记过程中的人力成本,并降低时间开销。
为达到上述目的,本发明采用了下列技术方案:
一种基于图排序模型的事件核心内容自动标记方法,包括:
步骤一:基于句法依存树的事件关键要素抽取及核心词标记;
步骤二:核心事件构建;
步骤三:核心事件排序、核心句定位并输出标记文本。
步骤一包括:
从文本中按照事件要素定义,建立定义事件重要组成成分要素表格,其中包含:时间、地点、主体、客体、量词、触发词、情感词;
使用基于句法依存树的方法进行事件关键要素抽取,对于文本进行分句处理,利用LTP中文自然语言处理词法分析工具,进行分词和词性标注处理,判断句子中是否包含所述事件重要组成成分要素,如果包含则进一步进行句法依存分析和命名实体识别,抽取所述事件重要组成成分要素;
对核心词进行标记。
步骤二包括:
将核心事件定义为由中心事件和关系事件组成的事件,定义文本标题是中心事件,定义关系事件为关系事件数据库,所述关系事件数据库表格包含时序关系、因果关系、条件关系和目的关系四类关系;
在所述文本的句子中抽取关系词;
判断所述关系词类别;
将判断后的每个所述关系词对应的句子为关系事件,存储关系词和对应的所述关系事件,构建关系事件数据库内容。
步骤三包括:
基于Textrank算法对所述核心事件重要性排序;
应用MMR算法,对所述核心事件的冗余内容进行噪音去除与筛选;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911393738.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分屏显示方法及电子设备
- 下一篇:一种用于病人的大数据监护方法