[发明专利]一种基于机器学习与规则匹配的民航事故报告处理方法在审
申请号: | 202111227632.8 | 申请日: | 2021-10-21 |
公开(公告)号: | CN114004227A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 卢宾宾;焦洋;韩静茹;董锦涛 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06N20/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 规则 匹配 民航 事故 报告 处理 方法 | ||
本发明涉及一种基于机器学习与规则匹配的民航事故报告处理方法。依据自然语言处理的方法对中文民用航空事故报告进行批量处理,利用机器学习分类器实现报告的自动分类,采用基于规则的方法对句子结构与内容进行分析,并据此实现事故原因的提取。本发明实现了中文报告的自动分类与原因提取,避免了人为误差的引入,可以达到更精确的效果,也提高了工作效率。
技术领域
本发明属于自然语言处理方法技术领域,特别是涉及一种基于机器学习与规则匹配的民航事故报告处理方法。
背景技术
民用航空事故会对乘客的人身及财产安全造成巨大威胁,很多事故都是由多个不安全措施引起的,如果能够对每起事故背后的发生原因进行提取与总结,就能够得到导致某种类型事故发生的关键因素,从而提升警惕。在每次事故发生后,责任单位都会有专业人员对其发生过程做出细致的剖析,并将其记录在事故报告中,对报告的有效分析可以帮助航空公司对某类事故发生的根本原因得到了解并从中吸取教训。报告通常以文本形式描述,多为非结构化或半结构化的数据,每月上报的报告有上千份,采用传统的手动分析不仅会导致资源的浪费,而且会引入人为误差,因此通过文本挖掘进行自动化处理是必要的。
通过采用文本挖掘的技术,事故报告中有利用价值的信息可以被提取出来,现有方法的局限性在于对主题的建模,无法对报告中事故发生的具体原因进行识别,因此无法进行下一步的利用。此外对文本分析的研究多集中在如建筑、铁路与工业等领域,它们实现了报告的分类与其中关键因素的抽取,并能够根据出现的因素对事故的风险与后果进行预测,但对航空事故相关尤其是采用中文描述的文本分析则较少。
发明内容
本发明针对现有技术的不足,提供一种基于机器学习与规则匹配的民航事故报告处理方法,实现了对民用航空事故报告的自动分类与事故发生原因的自动提取。
为了达到上述目的,本发明提供的技术方案是一种基于机器学习与规则匹配的民航事故报告处理方法,包括以下步骤:
步骤1,对民航事故报告数据进行预处理,筛选和规范用于处理的报告;
步骤2,对预处理后的报告进行中文分词、词性识别,并移除停用词;
步骤3,选择tf-idf值高的词作为报告的文本特征用于分类;
步骤4,报告文本向量化,构成可用于分类的数据集;
步骤5,选择最佳分类器对报告文本进行分类,得到事故类别;
步骤6,建立原因识别规则,用于提取事故原因。
而且,所述步骤1中预处理包含数据筛选和拼写标准化两步。数据筛选根据报告内容是否对事故发生的背景、事故发生时飞行器的状态以及对事故的原因做出分析进行筛选,若报告存在以上内容,则可作为事故原因提取的数据。拼写标准化是对事故报告中的错别字进行纠正,对缩写和同义词进行标准化替换,避免由于文本描述偏差而出现的特征表示错误。
而且,所述步骤2中通过分词对句子进行分割,使其成为在当前语境下有独立意义的词。为了避免在分类时将一些复合专业词汇分开,还需要对文本内容进行分析构建民用航空领域的专业词典。中文分词后需进行词性识别,并建立专业词汇对应的的词性表。词性识别主要是对句内各词的词性进行分析,识别出的词性包括名词、动词、动名词、动副词、形容词、副词、量词、代词、连词、介词、助词。词性识别结束后需要进行停用词的移除,停用词包括代词、冠词、语气助词、连接词和副词。
而且,所述步骤3中选择可以最大化代表文本信息的词汇作为分类的依据,可以达到更好的分类效果。特征选择可以实现数据的降维,为了区分不同类别的文档,作为特征的词汇在不同类别的文本中的分布一定是不同的,差异越大表示这个词对于分类越重要。
单个词汇的重要性通过下式计算得到的tf-idf值进行衡量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111227632.8/2.html,转载请声明来源钻瓜专利网。