[发明专利]面向科技需求的主题提取方法、装置和存储介质有效
申请号: | 202110778811.4 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113255340B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 杜军平;崔海燕;薛哲;徐欣 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/284;G06F16/35 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 宋教花 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 科技 需求 主题 提取 方法 装置 存储 介质 | ||
1.一种面向科技需求的主题提取方法,其特征在于,该方法包括以下步骤:
获取跨领域的科技需求文本数据,所述科技需求文本数据中带有行业领域一级主题类别标签;
基于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量;
利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量和主题词集,所述基于深度学习的主题模型为LDA2vec模型;
以所述主题词向量为基础,根据每篇文档中初步提取的主题词集,利用K-means++聚类算法按照预定的聚类数目对科技需求文本数据进行二级聚类,所述K-means++聚类算法选取在数据集中随机选取一个样本点作为第一个簇中心点,计算剩余样本点与所有簇中心的最短距离和某一样本点被选为下一个簇中心的概率,重复迭代计算概率选出与所述聚类数目对应数目的簇中心;
利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表;
所述基于科技需求文本数据分别获得单词向量和文档向量包括:
利用Word2Vec模型将科技需求文本数据中的单词表示成词向量;以及
使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于所述文档主题权重与文档主题分布矩阵得到文档向量;
在Word2Vec模型和LDA模型的训练阶段,所获取的科技需求文本数据是从包含科技需求文本数据样本的数据集中获得的,在Word2Vec模型和LDA模型的测试阶段,所获取的科技需求文本数据是通过数据抓取获得的。
2.根据权利要求1所述的方法,其特征在于,所述使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于所述文档主题权重与文档主题分布矩阵得到文档向量,包括:
基于科技需求文本数据得到文档主题权重,并基于文档主题权重得到文档各主题所占的比例;
以LDA初步提取出的文档主题生成主题矩阵;
计算主题矩阵与文档主题比例的内积,得到文档向量。
3.根据权利要求1所述的方法,其特征在于,所述利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集,包括:
将单词向量与文档向量相加得到该科技需求文本的上下文向量;
该上下文向量经过SGNS模型采用负采样损失函数进行训练,训练之后输出从该科技需求文本中提取出的分数最高单词作为主题词并输出这些主题词的向量表示;
将主题词向量的集合作为主题词集。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在预定时间段内统计提取出的主题词的词频,将提取的主题词结合时间序列来分析主题的演进规律。
5.根据权利要求1所述的方法,其特征在于,所述利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,包括:
针对每篇文档已经获取到的主题词集,由主题词向量计算词汇相似度得到初始词汇间关系权重;
使用TextRank根据词之间共现关系计算每个词的重要性,获取词汇间关系权重,构建词图并采用共现关系构造任意两个节点之间的边;
迭代计算各主题词向量对应的权重直至收敛;
对主题词的权重进行排序得到最重要的预定数目个单词。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:对高频无关性词汇建立词典进行过滤,得到最终的主题词排序。
7.一种面向科技需求的主题提取装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1至6中任意一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任意一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110778811.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种杀菌消毒控制方法和设备
- 下一篇:一种用于印花纺织面料的输送整平装置