[发明专利]一种基于机器学习与规则匹配的民航事故报告处理方法在审
申请号: | 202111227632.8 | 申请日: | 2021-10-21 |
公开(公告)号: | CN114004227A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 卢宾宾;焦洋;韩静茹;董锦涛 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06N20/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 规则 匹配 民航 事故 报告 处理 方法 | ||
1.一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于,包括如下步骤:
步骤1,对民航事故报告数据进行预处理,筛选和规范用于处理的报告;
步骤2,对预处理后的报告进行中文分词、词性识别,并移除停用词;
步骤3,选择tf-idf值高的词作为报告的文本特征用于分类;
步骤4,报告文本向量化,构成可用于分类的数据集;
步骤5,选择最佳分类器对报告文本进行分类,得到事故类别;
步骤6,建立原因识别规则,用于提取事故原因。
2.如权利要求1所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤1中预处理包含数据筛选和拼写标准化两步,数据筛选根据报告内容是否对事故发生的背景、事故发生时飞行器的状态以及对事故的原因做出分析进行筛选,若报告存在以上内容,则可作为事故原因提取的数据;拼写标准化是对事故报告中的错别字进行纠正,对缩写和同义词进行标准化替换,避免由于文本描述偏差而出现的特征表示错误。
3.如权利要求2所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤2中通过分词对句子进行分割,使其成为在当前语境下有独立意义的词;为了避免在分类时将一些复合专业词汇分开,还需要对文本内容进行分析构建民用航空领域的专业词典;中文分词后需进行词性识别,并建立专业词汇对应的的词性表;词性识别主要是对句内各词的词性进行分析,识别出的词性包括名词、动词、动名词、动副词、形容词、副词、量词、代词、连词、介词、助词,词性识别结束后需要进行停用词的移除,停用词包括代词、冠词、语气助词、连接词和副词。
4.如权利要求3所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤3中选择可以最大化代表文本信息的词汇作为分类的依据,可以达到更好的分类效果;特征选择可以实现数据的降维,为了区分不同类别的文档,作为特征的词汇在不同类别的文本中的分布一定是不同的,差异越大表示这个词对于分类越重要;单个词汇的重要性通过下式计算得到的tf-idf值进行衡量:
式中,xik为词汇i在类别k中的重要性度量,即tf-idf值;fik为类别k的文档中词汇i出现的频率;N为总的文档的数量;ni为所有包含词汇i的文档的数量,ni值越大,则该词对于此种文档的重要程度就越高;
将文本中词汇按照tf-idf值从大到小排序,选择前M个构成词典作为该文本的特征用于分类。
5.如权利要求4所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤4中将每个文本表示为与词典中词的个数等长的向量,并根据文本中某个词出现的次数为文本对应的数值向量赋值,没有出现的词对应的值为0,构成可用于分类的数据集;随后将数据集分离为训练集和测试集,其中训练集用来对备选的分类模型进行训练,测试集用来对备选的分类模型的分类效果进行评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111227632.8/1.html,转载请声明来源钻瓜专利网。