[发明专利]基于自然语言的适航指令问题特征的提取在审
申请号: | 202010752251.0 | 申请日: | 2020-07-30 |
公开(公告)号: | CN112115711A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 朱玉屏;蔡喁;申岳;刘春 | 申请(专利权)人: | 中国民用航空上海航空器适航审定中心 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247;G06F40/289;G06F40/216;G06F16/35;G06K9/62 |
代理公司: | 上海容慧专利代理事务所(普通合伙) 31287 | 代理人: | 于晓菁 |
地址: | 200232*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 适航 指令 问题 特征 提取 | ||
1.基于自然语言的适航指令问题特征的提取方法,其特征在于:按如下步骤进行提取:
S1提取适航指令背后的问题描述章节,进行文本数据预处理;
S2检测重叠句簇;
S3选择给定数量的句簇;
S4提取特征描述符。
2.根据权利要求1所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:S1中所述的文本数据预处理为:过滤文本中的噪声描述与单词,然后使用NLTK进行自然语言处理,并获得一个句子列表,该句子列表由TF-IDF向量形式的所有句子组成。
3.根据权利要求1所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:S2所述的检测重叠句簇的具体步骤为:
S21建立句子相似性网络;
S22选择种子;
S23判断是否找到种子,是,则进入下一步,否,则确定该句子为重叠句簇;
S24发现句簇成员;
S25识别句簇的关键词;
S26更新句子相似性网络,重新进入S21步骤,直到所有的句子都确认为重叠句簇。
4.根据权利要求1所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:S3所述的选择给定数量的句簇的具体方法为:按簇大小和簇关键字的平均权重将所发现的句簇进行重新拍列。
5.根据权利要求2所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述使用NLTK进行自然语言处理的具体方法为:
(1)句子提取:将产品描述中的各个句子分离;
(2)词汇切分:将句子分割为单词;
(3)词性标注:识别各个单词的词性;
(4)单词选择:只保留动词、名词和形容词;
(5)删除停用词:删除常用的一些不具有特定含义的单词;
(6)词干化:将单词转化词根形式。
6.根据权利要求2所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述由TF-IDF向量形式形成的句子列表的方式为:将一个类别内的所有文本表述的句子集合为一个文档,使用TF-IDF方法计算集合中每个单词的权重,将一个类别内文本描述的所有句子转变为向量,将所有句子向量根据公式进行归一化处理;其中xi表示第i个句子的x向量,n表示数量。
7.根据权利要求3所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述建立句子相似性网络的方法为:利用节点之间边的权重来度量句子之间的相似性,利用相似性计算公式获得句子之间的相似性结果,建立句子相似性网络。
8.根据权利要求3所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述选择种子的具体方法为:选择当前与权值最大、且权值大于阈值的边相连的节点作为种子。
9.根据权利要求3所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述发现句簇成员的具体方法为:将选择的种子作为新簇的初始质心,然后重叠句簇的发现算法开始迭代考察新簇的每个邻居节点是否可以作为当前句簇的成员;
其中邻居是指相似性网络中的节点,这些节点与当前句簇中的节点有连接。
10.根据权利要求3所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述识别句簇的关键词的具体方法为:采用skLearn包中的k-均值算法将簇质心向量中权重大于0的单词分为两组,然后选取平均权重大的一组单词作为关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民用航空上海航空器适航审定中心,未经中国民用航空上海航空器适航审定中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010752251.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向五金行业的仿真调试系统
- 下一篇:适航审查本体知识库