[发明专利]一种基于神经网络的新闻事件抽取的方法及系统在审
申请号: | 201710391227.7 | 申请日: | 2017-05-27 |
公开(公告)号: | CN107239445A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 周勇;刘兵;陈斌;王重秋 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙)32249 | 代理人: | 陈国强 |
地址: | 221008 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 新闻 事件 抽取 方法 系统 | ||
技术领域
本发明涉及自然语言处理,尤其涉及一种基于双向长短时记忆网络(BiLSTM)与卷积神经网络(CNN)结合的新闻事件抽取方法及系统。
背景技术
随着计算机的发展和互联网的日益普及,大量信息以电子文本的形式出现在人们面前。在大量的网络文本中,如何发掘有价值的新闻事件已经成为迫切需要解决的问题,事件抽取正是在这种背景下产生的。作为信息抽取的一个子任务,事件抽取是信息抽取的研究热点,它的研究内容是自动的从自然文本中发现特定类型的事件及其事件元素。
从文本中抽取相应的事件通常是通过识别事件的触发词来实现的,所以触发词是识别事件实例的关键。
专利号为CN201210321193.1的专利文献公开了一种事件抽取方法,利用触发词形态结构,结合义原相似度来扩展触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例,提高了事件抽取的召回率。专利号为CN201410108447.0的专利文献公开了一种新闻原子事件抽取方法,首先利用初步融合规则库和信息单元融合规则库对词性和命名体识别结果进行融合,然后利用核心词表和事件抽取规则库对新闻正文的信息单元融合结果进行事件抽取。
基于上述研究现状,针对新闻事件抽取主要存在以下问题:第一、对新闻事件的判别主要依赖于触发词本身,忽视了上下文关系,在遇到具有歧义的候选触发词时,容易造成事件类别的判断错误。第二,网络文本尤其是微博文本多为不规范语句,当前的事件抽取方法缺乏从不规范语句中提取事件的研究。
发明内容
本发明的目的是克服已有技术中的不足之处,提供一种基于神经网络的新闻事件抽取的方法及系统,以消除候选触发词歧义并且能够处理不规范语句的新闻事件。
为实现上述目的,本发明采用的技术方案为:
一种基于神经网络的新闻事件抽取的方法,包括以下步骤:
步骤S1,对训练语料原始文本进行数据预处理:对训练语料原始文本进行分句,得到事件句,然后对事件句进行分词、命名体识别;根据人工标注的新闻事件信息,将事件句进行序列标注,触发词根据其类型进行标注,非触发词标注为无类别,得到事件句序列;并将事件句序列以词向量的形式进行表述;
步骤S2,将以词向量表示的事件句序列传入到双向长短时记忆网络,利用双向长短时记忆网络来训练得到每个候选触发词的语义特征;
步骤S3,将以词向量表示的事件句序列传入到卷积神经网络中,利用卷积神经网络训练得到候选触发词所在事件句的全局特征;
步骤S4,根据步骤S2中得到的候选触发词的语义特征与步骤S3中获得的候选触发词所在句子的全局特征,利用softmax作为分类器来对每个候选触发词进行分类,从而找出新闻事件的触发词,并根据触发词类型,判断该事件所属类型。
步骤S1具体为:
步骤S11,采用自然语言处理工具对训练语料原始文本进行分句,分词和命名体识别,使训练语料原始文本以事件句和每句包含若干个词汇呈现,则事件句表达为L={w1,w2,…,wi,…,wn},其中wi为句子中第i个词,n表示事件句长度;
步骤S12,根据分词和命名体识别结果,对事件句进行人工标注,在标注过程中,将非触发词标记为无类型,触发词根据所属新闻事件类别进行标注,得到事件句序列;
步骤S13,通过开源工具包word2vec训练得到词向量,采用Skip-gram模型,根据训练得到的词向量,将事件句序列中每个词表述为一个300长度的向量;
步骤S14,将每个事件句处理成词向量表述的序列形式,即每个候选触发词wi以一个300长度的词向量xi来表示,事件句表述为L={x1,x2,…,xi,…,xn}。
步骤S2具体为:
步骤S21,假设事件句表述为L={x1,x2,…,xi,…,xn},其中xi为第i个候选触发词的词向量,n表示句子长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710391227.7/2.html,转载请声明来源钻瓜专利网。