[发明专利]一种基于机器学习与规则匹配的民航事故报告处理方法在审

申请号：	202111227632.8	申请日：	2021-10-21
公开（公告）号：	CN114004227A	公开（公告）日：	2022-02-01
发明（设计）人：	卢宾宾;焦洋;韩静茹;董锦涛	申请（专利权）人：	武汉大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216;G06N20/00
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于机器学习规则匹配民航事故报告处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于，包括如下步骤：

步骤1，对民航事故报告数据进行预处理，筛选和规范用于处理的报告；

步骤2，对预处理后的报告进行中文分词、词性识别，并移除停用词；

步骤3，选择tf-idf值高的词作为报告的文本特征用于分类；

步骤4，报告文本向量化，构成可用于分类的数据集；

步骤5，选择最佳分类器对报告文本进行分类，得到事故类别；

步骤6，建立原因识别规则，用于提取事故原因。

2.如权利要求1所述的一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于：步骤1中预处理包含数据筛选和拼写标准化两步，数据筛选根据报告内容是否对事故发生的背景、事故发生时飞行器的状态以及对事故的原因做出分析进行筛选，若报告存在以上内容，则可作为事故原因提取的数据；拼写标准化是对事故报告中的错别字进行纠正，对缩写和同义词进行标准化替换，避免由于文本描述偏差而出现的特征表示错误。

3.如权利要求2所述的一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于：步骤2中通过分词对句子进行分割，使其成为在当前语境下有独立意义的词；为了避免在分类时将一些复合专业词汇分开，还需要对文本内容进行分析构建民用航空领域的专业词典；中文分词后需进行词性识别，并建立专业词汇对应的的词性表；词性识别主要是对句内各词的词性进行分析，识别出的词性包括名词、动词、动名词、动副词、形容词、副词、量词、代词、连词、介词、助词，词性识别结束后需要进行停用词的移除，停用词包括代词、冠词、语气助词、连接词和副词。

4.如权利要求3所述的一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于：步骤3中选择可以最大化代表文本信息的词汇作为分类的依据，可以达到更好的分类效果；特征选择可以实现数据的降维，为了区分不同类别的文档，作为特征的词汇在不同类别的文本中的分布一定是不同的，差异越大表示这个词对于分类越重要；单个词汇的重要性通过下式计算得到的tf-idf值进行衡量：

式中，x_ik为词汇i在类别k中的重要性度量，即tf-idf值；f_ik为类别k的文档中词汇i出现的频率；N为总的文档的数量；n_i为所有包含词汇i的文档的数量，n_i值越大，则该词对于此种文档的重要程度就越高；

将文本中词汇按照tf-idf值从大到小排序，选择前M个构成词典作为该文本的特征用于分类。

5.如权利要求4所述的一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于：步骤4中将每个文本表示为与词典中词的个数等长的向量，并根据文本中某个词出现的次数为文本对应的数值向量赋值，没有出现的词对应的值为0，构成可用于分类的数据集；随后将数据集分离为训练集和测试集，其中训练集用来对备选的分类模型进行训练，测试集用来对备选的分类模型的分类效果进行评估。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111227632.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于机器学习与规则匹配的民航事故报告处理方法在审

专利文献下载