[发明专利]一种军事新闻长文本层次化事件抽取方法在审
申请号: | 202110970577.5 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113657090A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 张静;胡军;栾瑞鹏;孙悦 | 申请(专利权)人: | 中国人民解放军32801部队 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/258;G06K9/62;G06F16/35;G06F16/951 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100082 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 军事新闻 文本 层次 事件 抽取 方法 | ||
1.一种军事新闻长文本层次化事件抽取方法,其特征在于,其具体步骤包括,
S1,获取军事新闻资讯网页的内容,提取该类网页中的军事新闻文本数据;
S2,对所提取的军事新闻文本数据进行文本预处理,其具体包括,
S21,分别提取军事新闻文本的标题和发布日期;
S22,对军事新闻文本的内容进行分词和词性标注;
S23,对军事新闻文本的标题进行分词并构建触发词,定义事件类别,对军事新闻的事件和军事新闻文本标题分别进行归类,得到军事新闻的事件和军事新闻文本标题的归类结果;
S24,对步骤S23得到的军事新闻的事件和军事新闻文本标题的归类结果,按照军事新闻发布的日期先后顺序进行排序;
S3,对军事新闻文本进行分句和分词,计算军事新闻文本与触发词的相似度,识别出军事新闻文本中的事件句;
S4,对于军事新闻文本,筛选出军事新闻文本中与触发词的相似度大于一定阈值的事件句,并将该事件句保留在军事新闻文本中;
S5,从事件句中提取事件要素,进行角色标注;
S6,根据事件元素的角色描述结果,进行事件描述;
在不同的角色类别标签下,对事件句中提取出来的事件元素,使用语法分析树进行整合,得到由事件句的事件元素所组成的、能够表达一个完整语义的事件描述,分析该事件描述的动宾关系和主谓关系,并使用事件模板对事件描述填充,得到军事新闻长文本的层次化事件抽取结果。
2.如权利要求1所述的军事新闻长文本层次化事件抽取方法,其特征在于,
所述的步骤S1,其具体包括,使用网络爬虫工具从各个军事资讯网站上获取军事新闻的网站链接,并构造访问军事新闻的网站主体的HTTP请求,访问军事新闻的网页数据,得到网页数据之后,解析网页数据,提取该类网页中的军事新闻文本数据,并在解析的网页数据中寻找新的军事新闻超链接,对新的军事新闻超链接再进行上述网页数据的获取与解析的过程。
3.如权利要求1所述的军事新闻长文本层次化事件抽取方法,其特征在于,
所述的步骤S23,使用自然语言处理工具对军事新闻文本的标题进行分词,从分词结果中抽取军事新闻主体的关键词,根据关键词对应的军事新闻事件类别,构建相应事件类别的触发词;首先判断军事新闻文本的标题或正文内容中是否存在军事新闻主体的关键词,如果存在军事新闻主体的关键词,将该军事新闻的事件归类到该关键词对应的事件类别当中,得到军事新闻的事件所属的类别信息,如果军事新闻文本的标题或正文内容中不存在军事新闻主体的关键词,或者对军事新闻文本的标题进行分词的结果无法完全覆盖到军事新闻主体的关键词时,对于军事新闻文本的标题进行分词得到的词汇,利用该词汇之间的相似度,计算军事新闻文本标题的词汇与事件类别的触发词的相似度,如果其相似度大于一定阈值,则将军事新闻文本标题归属到触发词对应的事件类别中;
所述的计算军事新闻文本标题的词汇与事件类别的触发词的相似度,使用义原描述式对词汇进行描述,得到了每个词汇的义原描述式,w1和w2分别表示两个不同词汇的义原描述式,在义原层次体系下计算该两个词汇之间的路径长度d,选用合适的调节参数α,使用知网词语相似度公式计算词汇w1和w2之间的相似度,该知网词语相似度公式为:
其中,Sim(w1,w2)表示词汇w1和w2之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军32801部队,未经中国人民解放军32801部队许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110970577.5/1.html,转载请声明来源钻瓜专利网。