[发明专利]一种军事想定文本事件抽取语料库迭代式构建方法及装置有效
申请号: | 201910653277.7 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110597997B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 蒋序平;战立莹;杨若鹏;温鸿鹏;鲁义威;卢稳新;朱巍 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/289;G06F40/242;G06N3/00;G06N20/00 |
代理公司: | 北京兴智翔达知识产权代理有限公司 11768 | 代理人: | 郭卫芹 |
地址: | 430000 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种军事想定文本事件抽取语料库迭代式构建方法及装置,所述方法包括以下步骤:1、预处理,得到以词序列表示的原始数据集;2、构建种子数据集,定义事件模板,构造事件触发词词典,通过人工标注形成种子数据集,将种子数据集划分为种子训练集、测试集;3、模型训练,利用种子训练集对机器学习模型进行训练,并用测试集对模型进行测试,根据测试结果调优模型参数,得到第一学习模型;4、选取未标注训练语料,输入第一学习模型,得到预测结果集;5、校对预测结果集,形成新的标注语料;6、通过不断迭代,依次生成训练集,形成事件抽取语料库。本发明提出的面向军事想定文本的事件抽取语料库迭代式构建方法,提高了语料库构建效率,降低了人工标注成本,获得了较高的语料标注准确度。 | ||
搜索关键词: | 一种 军事 想定 文本 事件 抽取 语料库 迭代式 构建 方法 装置 | ||
【主权项】:
1.一种军事想定文本事件抽取语料库迭代式构建方法,其特征在于,所述方法包括以下步骤:/nA、预处理:输入军事想定文本语料,对军事想定文本语料依次进行分句、分词,生成以词序列表示的数据集;/nA1、将军事想定文本语料按照中文标点断句符号切分成一个个的句子,形成词句子集合;/nA2、将句子集合中的每个句子运用开源分词器进行分词,得到词语集合,并逐行显示,形成词序列;/nA3、基于开源分词器自带词典,构建自定义词典,修正分词结果;/nB、构建种子数据集:定义事件模板,构造触发词词典,从原始数据集中选取典型事件描述句,进行人工标注;/nB1、定义事件模板,根据事件类型分别定义每类事件的基本模板,基本模板由事件触发词和事件元素组成;/nB2、依据公开发行的军事领域通用词典对每类事件触发词进行同义、近义词扩展,构造事件触发词词典;/nB3、制定语料标注的目标、方法和规则,分别定义各类事件的触发词和事件元素标注标签;/nB4、依据相似度规则,对照事件模板从原始数据集中选取各类事件典型描述句,并对其标注相应的触发词和事件元素标签,生成各类事件的触发词和事件元素标注序列集,得到种子数据集;/nB5、将所得种子数据集按指定比例分为种子训练集、测试集;/nC、模型训练:利用种子训练集对机器学习模型进行训练,并用测试集对模型进行测试,根据测试结果调优模型参数,得到第一学习模型;/nC1、利用种子训练集对机器学习模型进行训练,得到相应的模型参数;/nC2、用测试集对机器学习模型进行测试;/nC3、根据测试结果,以特定优化算法对模型参数进行优化,得到第一学习模型;/nD、结果预测:从原始数据集中选取未标注训练语料,输入第一学习模型,得到预测结果集,其中,模型训练输出的结果需要利用维特比算法进行解码,得到最优标注结果,选取的待标注序列为X
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910653277.7/,转载请声明来源钻瓜专利网。