[发明专利]用于自主工业软件文本数据的关键词抽取方法及装置在审
申请号: | 202210079886.8 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114492394A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 王立平;王冬;李学崑;蔡恩磊;张超;史慧杰 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 黄德海 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自主 工业 软件 文本 数据 关键词 抽取 方法 装置 | ||
1.一种用于自主工业软件文本数据的关键词抽取方法,其特征在于,包括以下步骤:
获取自主工业软件的待提取关键词文档;
将所述待提取关键词文档输入至预先训练的关键词抽取模型,获取所述待提取关键词文档中每个词语对应的关键词概率,其中,所述关键词抽取模型由自主工业软件训练数据建立;以及
由所述关键词概率大于预设概率的至少一个词语抽取得到所述待提取关键词文档的至少一个关键词,其中,所述至少一个词语的数量根据文本长度和实际关键词概率确定。
2.根据权利要求1所述的方法,其特征在于,所述将所述待提取关键词文档输入至预先训练的关键词抽取模型,包括:
基于skip-gram模型和Glove模型分别获取所述待提取关键词文档的skip-gram词向量矩阵和Glove词向量矩阵;
基于TF-IDF模型获取所述待提取关键词文档的文本向量;
将所述skip-gram词向量矩阵、所述Glove词向量矩阵和所述文本向量输入至所述关键词抽取模型。
3.根据权利要求2所述的方法,其特征在于,在将所述待提取关键词文档输入至所述预先训练的关键词抽取模型之前,还包括:
由Fusion_Embedding层神经网络与BiLSTM层神经网络串联,并与TF-IDF层神经网络并联,建立初始关键词抽取模型;
利用所述自主工业软件训练数据集训练所述初始关键词抽取模型,得到所述预先训练的关键词抽取模型。
4.根据权利要求3所述的方法,其特征在于,所述获取所述待提取关键词文档中每个词语对应的关键词概率,包括:
利用所述Fusion_Embedding层神经网络融合所述skip-gram词向量矩阵和Glove词向量矩阵,生成融合词向量矩阵;
利用所述TF-IDF层神经网络对所述文本向量进行特征降维处理,得到处理后的文本向量;
由所述融合词向量矩阵和所述处理后的文本向量得到所述每个词语对应的关键词概率。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述每个词语对应的关键词概率的计算公式为:
其中,x为拼接结果,vec_mask为概率分布调整向量,wi和wk(i,k=1,2,…,n)为可训练参数,概率值pk为第k个词作为关键词的概率值。
6.一种用于自主工业软件文本数据的关键词抽取装置,其特征在于,包括:
获取模块,用于获取自主工业软件的待提取关键词文档;
概率计算模块,用于将所述待提取关键词文档输入至预先训练的关键词抽取模型,获取所述待提取关键词文档中每个词语对应的关键词概率,其中,所述关键词抽取模型由自主工业软件训练数据建立;以及
抽取模块,用于由所述关键词概率大于预设概率的至少一个词语抽取得到所述待提取关键词文档的至少一个关键词,其中,所述至少一个词语的数量根据文本长度和实际关键词概率确定。
7.根据权利要求6所述的装置,其特征在于,还包括:
建模模块,用于由Fusion_Embedding层神经网络与BiLSTM层神经网络串联,并与TF-IDF层神经网络并联,建立初始关键词抽取模型;
训练模块,用于利用所述自主工业软件训练数据集训练所述初始关键词抽取模型,得到所述预先训练的关键词抽取模型。
8.根据权利要求6所述的装置,其特征在于,所述每个词语对应的关键词概率的计算公式为:
其中,x为拼接结果,vec_mask为概率分布调整向量,wi和wk(i,k=1,2,…,n)为可训练参数,概率值pk为第k个词作为关键词的概率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210079886.8/1.html,转载请声明来源钻瓜专利网。