[发明专利]一种基于word2vec和TextRank的科技文本关键词提取方法在审
申请号: | 201810842132.7 | 申请日: | 2018-07-27 |
公开(公告)号: | CN108920466A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 徐小良;袁佳彬;王宇翔 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本关键词 权重 算法 文本 有向带权图 语义相似度 语义 初始权重 迭代更新 分词处理 滑动窗口 语义向量 综合考虑 顶点权 相似度 迭代 语料 重构 改进 赋予 | ||
1.一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于,该方法包含如下步骤:
步骤1:科技语料的词向量训练
步骤1.1使用网络爬虫抓取中文科技文献作为科技领域的训练语料,包括论文、专利、项目的标题、关键词和摘要,并进行数据清理,去除语料中的噪声,以保证语料的有效性;
步骤1.2 提取上述训练语料中已抓取的关键词,进行关键词去重并通过词根特性及词法分析,结合关键词所在文献的质量因素,对关键词进行有效过滤和标准化,保留高质量关键词,构建分词词袋;
步骤1.3 使用步骤1.2构建的分词词袋对上述训练语料分词,接着使用word2vec模型将分词结果进行词向量训练;所述词向量训练结果包括分词词袋中的每个科技词及其语义向量;
步骤2:目标科技文本的分词及分词关系的提取
使用步骤1.2构建的分词词袋对目标科技文本进行分词,接着使用一个长度为
步骤3:构建科技文本分词结果的有向带权图
针对科技文本的分词结果构建有向带权图
步骤4:顶点权重的迭代计算及文本关键词的获取
首先为每个顶点赋予相同的权重,该权重表示这个词在整个文本中的重要性;顶点的权重在每次迭代计算中由相邻顶点权重及边的权重计算得到,具体的迭代计算过程如下:
a)遍历图中每一个顶点逐个更新权重;
b)针对每一个顶点,取出与之相邻的每个顶点及边参与权重的更新;
c)当两次计算的顶点权重误差小于一个极小值
其次,将各个顶点按权重由高到低排列,取前
2.根据权利要求1所述的一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于:
步骤1.3和步骤2的分词方法基于步骤1.2构建的分词词袋;首先将分词词袋转化为前缀词典,进而基于前缀词典实现词图扫描,生成包含所有成词情况的有向无环图;采用动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于分词词袋未收录但又有意义的未登录词,采用基于汉字成词能力的 HMM 模型及Viterbi 算法,并去除停用词。
3.根据权利要求1所述的一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于:
步骤3中构建有向带权图,其中边的权重由词向量相似度计算得到,首先由步骤1.3生成的词向量分别得到两个词的词向量
其中,
4.根据权利要求1所述的一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于:
步骤4中使用如下公式迭代计算有向带权图中每个顶点的权重:
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810842132.7/1.html,转载请声明来源钻瓜专利网。