[发明专利]针对航空安全报告叙述性文本的信息处理方法和装置在审
申请号: | 201910208946.X | 申请日: | 2019-03-19 |
公开(公告)号: | CN109960802A | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 时宏伟;罗雍慧 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N20/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 610044 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料库 航空安全 词语 叙述性 方法和装置 信息处理 主题分布 文本 词向量 文本预处理 航空领域 损失函数 主题向量 连贯性 解释性 再处理 建模 文档 工作量 输出 评估 申请 | ||
本申请提供了针对航空安全报告叙述性文本的信息处理方法和装置,首先通过对多份航空安全报告的叙述性文本预处理后得到词语语料库,利用LDA模型和word2vec工具对所述词语语料库分别进行训练,得到主题向量和第一词向量然后再处理得到基于文档的第二词向量针对采用lda2vec模型的损失函数计算所述词语语料库的主题分布,并利用主题连贯性指标对所述词语语料库的主题分布进行评估,最终输出所述词语语料库的主题可解释性结果,以此实现了针对大规模航空安全报告叙述性文本的主题建模,能识别出报告的主题以减少对航空领域专家的依赖及其相关工作量。
技术领域
本申请涉及航空安全技术领域,特别是涉及针对航空安全报告叙述性文本的信息处理方法和针对航空安全报告叙述性文本的信息处理装置。
背景技术
安全一直是航空运输业的生命线,只有提前准确的发现并纠正系统中存在的缺陷,控制和消除航空安全隐患,才能积极预防飞行事故,确保飞行安全。航空安全报告系统ASRS(Aviation Safety Reporting System)是美国联邦航空管理局FAA(FederalAviation Administration)建立的安全自愿报告系统,主要用于收集大量来自航空从业人员(包括飞行员、管制员、乘务员、机务维修人员、保安人员以及其他相关人员)针对涉及到航空器运行过程中的不安全事件,或者当前航空安全系统中存在的潜在矛盾和不足之处,自愿匿名提交的不安全事件和安全隐患报告。这些安全报告是识别航空安全隐患和解释航空飞行事故发生原因的最佳信息来源。
传统的航空安全报告分析主要是对其中的结构化数据进行简单的查询和统计;而对报告中的非结构化部分,也即包含了大量对于事故经过和可能原因的文本描述内容的部分,由于需要航空领域专家花费大量的时间精力去分析研究,将极大受制于人力物力和财力,仅有小部分才可获得有效的分析结果;另外,人工分析这些非结构化数据的准确性和可靠性还严重依赖于分析人员的专业能力和相关经验。随着时间推移,产生的航空安全报告日积月累,目前已经收集了上百万份的各类安全报告,严重超出了专业分析人员的承载能力。
发明内容
本申请提供了针对航空安全报告叙述性文本的信息处理方法和装置,以解决上述技术问题。
为了解决上述问题,本申请公开了针对航空安全报告叙述性文本的信息处理方法,所述方法包括:
步骤S1:对多份航空安全报告的叙述性文本进行预处理,得到针对所述多份航空安全报告的词语语料库;
步骤S2:利用文档主题生成模型LDA对所述词语语料库进行训练,得到主题向量以及利用典型分布式词向量word2vec工具对所述词语语料库进行训练,得到第一词向量
步骤S3:将所述主题向量和所述第一词向量转换至同一向量空间,得到基于文档的第二词向量
步骤S4:针对所述基于文档的第二词向量采用文档-词向量混合模型lda2vec模型的损失函数计算所述词语语料库的主题分布;
步骤S5:利用主题连贯性指标对所述词语语料库的主题分布进行评估,输出所述词语语料库的主题可解释性结果。
可选的,在步骤S1之前,所述方法包括:
对所述多份航空安全报告进行降维处理,得到叙述性文本;其中,所述叙述性文本包括描述航空安全问题的起因、地点和时间的文本。
可选的,所述步骤S1包括:
利用数据清洗规则对所述多份航空安全报告的叙述性文本进行预处理,得到词语语料库;
其中,所述数据清洗规则包括:
(1)拼写检查和扩展缩略词,根据航空安全报告系统ASRS官网提供的缩略词表对部分缩略词进行扩展;
(2)将文本中的大写全部转换为小写;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910208946.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法及装置
- 下一篇:基于成分句法压缩树的指代消解方法