[发明专利]一种军事新闻长文本层次化事件抽取方法在审
申请号: | 202110970577.5 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113657090A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 张静;胡军;栾瑞鹏;孙悦 | 申请(专利权)人: | 中国人民解放军32801部队 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/258;G06K9/62;G06F16/35;G06F16/951 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100082 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 军事新闻 文本 层次 事件 抽取 方法 | ||
本发明公开了一种军事新闻长文本层次化事件抽取方法,其具体步骤包括,获取军事新闻资讯网页的内容,提取该类网页中的军事新闻文本数据;进行文本预处理,对军事新闻文本的内容进行分词和词性标注,对军事新闻文本的标题进行分词并构建触发词,得到军事新闻文本标题的归类结果;识别出军事新闻文本中的事件句;筛选出军事新闻文本中与触发词的相似度大于一定阈值的事件句;从事件句中提取事件要素,进行角色标注;根据事件元素的角色描述结果,进行事件描述。本发明确定语句表达主旨的、贡献度最大的词汇作为军事新闻的触发词,使用触发词归类事件类别并将事件要素进行串联,构成篇章级别的军事新闻超长文本的事件链。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种军事新闻长文本层次化事件抽取方法。
背景技术
在自然语言处理技术领域,事件是指在某种时空下,一些角色围绕某个方向开展的一系列活动。事件抽取技术是从非结构化文本数据中,对用户所感兴趣的内容和关键词进行提取,并以结构化呈现给用户。
军工建设是各国国防保密的重点,而军事技术总是面向最尖端最先进的方向发展,因此,有效分析军事新闻,成了追踪技术前沿的一种手段。目前事件抽取的常用手段有:
1、传统的匹配和统计方法,如静态模板匹配和词频统计分析,由于自然语言变化方式很多,轻微变动就可以造成语义的剧烈变化,从而导致该方法失效,抽取效率低。对于军事新闻的抽取,模板的设计、编写者需要有深入的军事知识储备,其门槛较高。
2、神经网络和机器学习的方法,如使用长短时记忆网络、词包等进行词的向量编码,使用预训练语言模型进行迁移学习。但是由于并行处理器缓存的限制,该方法仍然难以应对超长篇章级别的军事新闻综合处理的需要。
发明内容
针对目前军事新闻事件抽取设计模式困难、难以应对篇章级长文本等问题,本发明提供一种军事新闻长文本层次化事件抽取方法,可以高效地对篇章级别的长文本军事新闻进行事件提取。
本发明公开了一种军事新闻长文本层次化事件抽取方法,其具体步骤包括,
S1,获取军事新闻资讯网页的内容,提取该类网页中的军事新闻文本数据;
所述的步骤S1,其具体包括,使用网络爬虫工具从各个军事资讯网站上获取军事新闻的网站链接,并构造访问军事新闻的网站主体的HTTP请求,访问军事新闻的网页数据,得到网页数据之后,解析网页数据,提取该类网页中的军事新闻文本数据,并在解析的网页数据中寻找新的军事新闻超链接,对新的军事新闻超链接再进行上述网页数据的获取与解析的过程。
S2,对所提取的军事新闻文本数据进行文本预处理,其具体包括,
S21,分别提取军事新闻文本的标题和发布日期;
S22,对军事新闻文本的内容进行分词和词性标注;
S23,对军事新闻文本的标题进行分词并构建触发词,定义事件类别,对军事新闻的事件和军事新闻文本标题分别进行归类,得到军事新闻的事件和军事新闻文本标题的归类结果;
使用自然语言处理工具对军事新闻文本的标题进行分词,从分词结果中抽取军事新闻主体的关键词,根据关键词对应的军事新闻事件类别,构建相应事件类别的触发词。首先判断军事新闻文本的标题或正文内容中是否存在军事新闻主体的关键词,如果存在军事新闻主体的关键词,将该军事新闻的事件归类到该关键词对应的事件类别当中,得到军事新闻的事件所属的类别信息,如果军事新闻文本的标题或正文内容中不存在军事新闻主体的关键词,或者对军事新闻文本的标题进行分词的结果无法完全覆盖到军事新闻主体的关键词时,对于军事新闻文本的标题进行分词得到的词汇,利用该词汇之间的相似度,计算军事新闻文本标题的词汇与事件类别的触发词的相似度,如果其相似度大于一定阈值,则将军事新闻文本标题归属到触发词对应的事件类别中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军32801部队,未经中国人民解放军32801部队许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110970577.5/2.html,转载请声明来源钻瓜专利网。