[发明专利]一种基于机器学习与规则匹配的民航事故报告处理方法在审

专利信息
申请号: 202111227632.8 申请日: 2021-10-21
公开(公告)号: CN114004227A 公开(公告)日: 2022-02-01
发明(设计)人: 卢宾宾;焦洋;韩静茹;董锦涛 申请(专利权)人: 武汉大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/216;G06N20/00
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 王琪
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 机器 学习 规则 匹配 民航 事故 报告 处理 方法
【权利要求书】:

1.一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于,包括如下步骤:

步骤1,对民航事故报告数据进行预处理,筛选和规范用于处理的报告;

步骤2,对预处理后的报告进行中文分词、词性识别,并移除停用词;

步骤3,选择tf-idf值高的词作为报告的文本特征用于分类;

步骤4,报告文本向量化,构成可用于分类的数据集;

步骤5,选择最佳分类器对报告文本进行分类,得到事故类别;

步骤6,建立原因识别规则,用于提取事故原因。

2.如权利要求1所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤1中预处理包含数据筛选和拼写标准化两步,数据筛选根据报告内容是否对事故发生的背景、事故发生时飞行器的状态以及对事故的原因做出分析进行筛选,若报告存在以上内容,则可作为事故原因提取的数据;拼写标准化是对事故报告中的错别字进行纠正,对缩写和同义词进行标准化替换,避免由于文本描述偏差而出现的特征表示错误。

3.如权利要求2所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤2中通过分词对句子进行分割,使其成为在当前语境下有独立意义的词;为了避免在分类时将一些复合专业词汇分开,还需要对文本内容进行分析构建民用航空领域的专业词典;中文分词后需进行词性识别,并建立专业词汇对应的的词性表;词性识别主要是对句内各词的词性进行分析,识别出的词性包括名词、动词、动名词、动副词、形容词、副词、量词、代词、连词、介词、助词,词性识别结束后需要进行停用词的移除,停用词包括代词、冠词、语气助词、连接词和副词。

4.如权利要求3所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤3中选择可以最大化代表文本信息的词汇作为分类的依据,可以达到更好的分类效果;特征选择可以实现数据的降维,为了区分不同类别的文档,作为特征的词汇在不同类别的文本中的分布一定是不同的,差异越大表示这个词对于分类越重要;单个词汇的重要性通过下式计算得到的tf-idf值进行衡量:

式中,xik为词汇i在类别k中的重要性度量,即tf-idf值;fik为类别k的文档中词汇i出现的频率;N为总的文档的数量;ni为所有包含词汇i的文档的数量,ni值越大,则该词对于此种文档的重要程度就越高;

将文本中词汇按照tf-idf值从大到小排序,选择前M个构成词典作为该文本的特征用于分类。

5.如权利要求4所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤4中将每个文本表示为与词典中词的个数等长的向量,并根据文本中某个词出现的次数为文本对应的数值向量赋值,没有出现的词对应的值为0,构成可用于分类的数据集;随后将数据集分离为训练集和测试集,其中训练集用来对备选的分类模型进行训练,测试集用来对备选的分类模型的分类效果进行评估。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111227632.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top