[发明专利]一种基于word2vec和TextRank的科技文本关键词提取方法在审

专利信息
申请号: 201810842132.7 申请日: 2018-07-27
公开(公告)号: CN108920466A 公开(公告)日: 2018-11-30
发明(设计)人: 徐小良;袁佳彬;王宇翔 申请(专利权)人: 杭州电子科技大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 杭州千克知识产权代理有限公司 33246 代理人: 周希良
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本关键词 权重 算法 文本 有向带权图 语义相似度 语义 初始权重 迭代更新 分词处理 滑动窗口 语义向量 综合考虑 顶点权 相似度 迭代 语料 重构 改进 赋予
【权利要求书】:

1.一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于,该方法包含如下步骤:

步骤1:科技语料的词向量训练

步骤1.1使用网络爬虫抓取中文科技文献作为科技领域的训练语料,包括论文、专利、项目的标题、关键词和摘要,并进行数据清理,去除语料中的噪声,以保证语料的有效性;

步骤1.2 提取上述训练语料中已抓取的关键词,进行关键词去重并通过词根特性及词法分析,结合关键词所在文献的质量因素,对关键词进行有效过滤和标准化,保留高质量关键词,构建分词词袋;

步骤1.3 使用步骤1.2构建的分词词袋对上述训练语料分词,接着使用word2vec模型将分词结果进行词向量训练;所述词向量训练结果包括分词词袋中的每个科技词及其语义向量;

步骤2:目标科技文本的分词及分词关系的提取

使用步骤1.2构建的分词词袋对目标科技文本进行分词,接着使用一个长度为n的滑动窗口从分词结果开头滑动至末尾,滑动过程中记录下任意出现在同一滑动窗口中的两个词的组合,这样两个词存在上下文关系,在步骤3构建有向带权图时需要在这两个词间添加一条边;

步骤3:构建科技文本分词结果的有向带权图

针对科技文本的分词结果构建有向带权图G=(V,E,W);其中,科技文本分词结果中的所有科技词作为G的顶点集,记为V;步骤2中获取的分词关系作为G的边集,记为EG中每条边都具有权值,权值集记为W,边的权值由步骤1.3生成的词向量做余弦相似度得到;

步骤4:顶点权重的迭代计算及文本关键词的获取

首先为每个顶点赋予相同的权重,该权重表示这个词在整个文本中的重要性;顶点的权重在每次迭代计算中由相邻顶点权重及边的权重计算得到,具体的迭代计算过程如下:

a)遍历图中每一个顶点逐个更新权重;

b)针对每一个顶点,取出与之相邻的每个顶点及边参与权重的更新;

c)当两次计算的顶点权重误差小于一个极小值ε,迭代计算完成;

其次,将各个顶点按权重由高到低排列,取前N个顶点代表的词作为文本的关键词。

2.根据权利要求1所述的一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于:

步骤1.3和步骤2的分词方法基于步骤1.2构建的分词词袋;首先将分词词袋转化为前缀词典,进而基于前缀词典实现词图扫描,生成包含所有成词情况的有向无环图;采用动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于分词词袋未收录但又有意义的未登录词,采用基于汉字成词能力的 HMM 模型及Viterbi 算法,并去除停用词。

3.根据权利要求1所述的一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于:

步骤3中构建有向带权图,其中边的权重由词向量相似度计算得到,首先由步骤1.3生成的词向量分别得到两个词的词向量AB,再计算两个词向量的余弦相似度作为边的权重;余弦相似度由以下公式计算:

其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。

4.根据权利要求1所述的一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于:

步骤4中使用如下公式迭代计算有向带权图中每个顶点的权重:

其中,In(Vi)表示能到达顶点Vi其他顶点,Out(Vj)表示从顶点Vj能到达的其他顶点,S(Vi)表示顶点Vi的权重,d为阻尼系数, wji表示顶点ij之间的边的权重;按以上公式迭代计算每个顶点的权重,当两次迭代所有顶点权重值之差小于极小值时ε,迭代停止。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810842132.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top