[发明专利]一种基于图排序模型的事件核心内容自动标记方法、装置及系统有效
申请号: | 201911393738.8 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111191413B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 李建欣;毛乾任;李倩;钟盛海;朱洪东;李熙 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/211;G06F40/253;G06F40/289;G06F40/295;G06F16/33 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 排序 模型 事件 核心内容 自动 标记 方法 装置 系统 | ||
1.一种基于图排序模型的事件核心内容自动标记方法,其特征在于:包括:
步骤一:基于句法依存树的事件关键要素抽取及核心词标记,具体包含建立定义事件重要组成成分要素表格和使用基于句法依存树的方法进行事件关键要素抽取步骤,所述建立定义事件重要组成成分要素表格步骤为:从文本中按照事件要素定义,建立定义事件重要组成成分要素表格,其中包含:时间、地点、主体、客体、量词、触发词、情感词;
步骤二:核心事件构建,包括定义核心事件,在所述文本的句子中抽取关系词,判断所述关系词类别和构建关系事件数据库内容步骤;所述定义核心事件步骤为:将核心事件定义为由中心事件和关系事件组成的事件,定义文本标题是中心事件,定义关系事件为关系事件数据库,所述关系事件数据库表格抽取的所述关系词包含时序关系、因果关系、条件关系和目的关系四类关系;所述构建关系事件数据库内容步骤为:将判断后的每个所述关系词对应的句子为关系事件,存储关系词和对应的所述关系事件,构建关系事件数据库内容;
步骤三:核心事件排序、核心句定位并输出标记文本;所述核心事件排序、核心句定位并输出标记文本步骤包括:基于Textrank算法对所述核心事件重要性排序,首先构建图G=(V,E),句子作为顶点,句子之间有关系则构建边;然后应用textrank算法或相似算法获得每个顶点的权重,TextRank的计算公式为:
WS是句子的重要性权重,wij表示句子i、j之间的权重,wjk表示句子k、j之间的权重,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向和句子i的有关的句子集合,Out(Vj)是句子j中的存在跟j有关的的句子的集合,|Out(Vj)|是集合中元素的个数;
应用MMR算法,采用如下公式:
MMR(Q,Ga,R)
=maxi∈R\S[α*score(i)+β*maxi∈S[similarity(T,i)]]-(1-α-β)*max[similarity(i,j)]
其中,S为R集合中已经被选中的集合,S表示核心事件句,Q表示当前关系事件,Ga表示关系事件的集合,R表示已经得到的一个以相似度为基础的初始关系事件集合,T表示新闻的标题,其中i,j表示第i个核心要素,第j个核心要素,score(i)计算核心要素的重要性分值计算的是核心要素的重要性分值,对所述核心事件进行冗余内容进行噪音去除与筛选;
对去冗余后的所述核心事件,根据对应的关系词定位句子所在的位置,并标记当前句子和关系词,输出标记文本。
2.根据权利要求1所述的一种基于图排序模型的事件核心内容自动标记方法,其特征在于:所述使用基于句法依存树的方法进行事件关键要素抽取步骤为:对于文本进行分句处理,利用LTP中文自然语言处理分析工具,进行分词和词性标注处理,判断句子中是否包含所述事件重要组成成分要素,如果包含则进一步进行句法依存分析和命名实体识别,抽取所述事件重要组成成分要素;
对抽取的事件重要组成成分核心词在原文中进行自动标记。
3.根据权利要求2所述的一种基于图排序模型的事件核心内容自动标记方法,其特征在于:所述自动标记方法为加粗。
4.根据权利要求3所述的一种基于图排序模型的事件核心内容自动标记方法,其特征在于:
所述核心事件去冗余方法为考虑标题与要素词之间的相似度,要素间的相似度,要素重要性排序以及要素词是否在核心事件句中四者综合因素,从而对核心事件去除冗余句子。
5.一种基于图排序模型的事件核心内容自动标记装置,其特征在于:包括:
信息输入模块,用于输入源文本;
事件核心内容自动标记模块,应用权利要求1-4中任一所述基于图排序模型的事件核心内容自动标记方法,对输入源文本进行标记;
信息输出模块,将自动生成的标记通过接口程序输出。
6.一种基于图排序模型的事件核心内容自动标记系统,其特征在于:
所述系统包括至少一台服务器,以及与服务器连接的如权利要求5所述的基于图排序模型的事件核心内容自动标记装置,所述服务器执行生成摘要过程时,通过所述基于图排序模型的事件核心内容自动标记装置执行权利要求1-4中任一所述的基于图排序模型的事件核心内容自动标记方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911393738.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:分屏显示方法及电子设备
- 下一篇:一种用于病人的大数据监护方法