[发明专利]一种基于word2vec和TextRank的科技文本关键词提取方法在审
申请号: | 201810842132.7 | 申请日: | 2018-07-27 |
公开(公告)号: | CN108920466A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 徐小良;袁佳彬;王宇翔 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于word2vec和TextRank的科技文本关键词提取方法。本发明使用科技语料训练word2vec模型,获取每个词的语义向量;针对待处理文本进行分词处理,并以每个词为顶点,词在滑动窗口中的词共现关系为边,词的相似度为权重构建有向带权图;为每个词赋予初始权重,进而基于边的语义相似度设计改进的TextRank算法,实现顶点权重的迭代更新。直至两次迭代的误差小于一个极小值ε,以此作为每个词的最终权重;取前N个权重最高的关键词作为该文本的关键词。本发明综合考虑了词与词在语义上的距离,以此来改进TextRank算法,使词的权重表示更为精准,从而提高文本关键词提取的可靠性、有效性。 | ||
搜索关键词: | 文本关键词 权重 算法 文本 有向带权图 语义相似度 语义 初始权重 迭代更新 分词处理 滑动窗口 语义向量 综合考虑 顶点权 相似度 迭代 语料 重构 改进 赋予 | ||
【主权项】:
1.一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于,该方法包含如下步骤:步骤1:科技语料的词向量训练步骤1.1使用网络爬虫抓取中文科技文献作为科技领域的训练语料,包括论文、专利、项目的标题、关键词和摘要,并进行数据清理,去除语料中的噪声,以保证语料的有效性;步骤1.2 提取上述训练语料中已抓取的关键词,进行关键词去重并通过词根特性及词法分析,结合关键词所在文献的质量因素,对关键词进行有效过滤和标准化,保留高质量关键词,构建分词词袋;步骤1.3 使用步骤1.2构建的分词词袋对上述训练语料分词,接着使用word2vec模型将分词结果进行词向量训练;所述词向量训练结果包括分词词袋中的每个科技词及其语义向量;步骤2:目标科技文本的分词及分词关系的提取使用步骤1.2构建的分词词袋对目标科技文本进行分词,接着使用一个长度为n的滑动窗口从分词结果开头滑动至末尾,滑动过程中记录下任意出现在同一滑动窗口中的两个词的组合,这样两个词存在上下文关系,在步骤3构建有向带权图时需要在这两个词间添加一条边;步骤3:构建科技文本分词结果的有向带权图针对科技文本的分词结果构建有向带权图G=(V,E,W);其中,科技文本分词结果中的所有科技词作为G的顶点集,记为V;步骤2中获取的分词关系作为G的边集,记为E;G中每条边都具有权值,权值集记为W,边的权值由步骤1.3生成的词向量做余弦相似度得到;步骤4:顶点权重的迭代计算及文本关键词的获取首先为每个顶点赋予相同的权重,该权重表示这个词在整个文本中的重要性;顶点的权重在每次迭代计算中由相邻顶点权重及边的权重计算得到,具体的迭代计算过程如下:a)遍历图中每一个顶点逐个更新权重;b)针对每一个顶点,取出与之相邻的每个顶点及边参与权重的更新;c)当两次计算的顶点权重误差小于一个极小值ε,迭代计算完成;其次,将各个顶点按权重由高到低排列,取前N个顶点代表的词作为文本的关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810842132.7/,转载请声明来源钻瓜专利网。