[发明专利]一种基于word2vec和TextRank的科技文本关键词提取方法在审
申请号: | 201810842132.7 | 申请日: | 2018-07-27 |
公开(公告)号: | CN108920466A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 徐小良;袁佳彬;王宇翔 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本关键词 权重 算法 文本 有向带权图 语义相似度 语义 初始权重 迭代更新 分词处理 滑动窗口 语义向量 综合考虑 顶点权 相似度 迭代 语料 重构 改进 赋予 | ||
本发明公开了一种基于word2vec和TextRank的科技文本关键词提取方法。本发明使用科技语料训练word2vec模型,获取每个词的语义向量;针对待处理文本进行分词处理,并以每个词为顶点,词在滑动窗口中的词共现关系为边,词的相似度为权重构建有向带权图;为每个词赋予初始权重,进而基于边的语义相似度设计改进的TextRank算法,实现顶点权重的迭代更新。直至两次迭代的误差小于一个极小值
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于word2vec和TextRank的科技文本关键词提取方法。
背景技术
随着信息技术的发展,网络中数据总量呈现指数级增长。以科技信息为例,中国知网、万方等国内多家科技文献服务机构的中文论文、专利、项目总量已突破数亿项,而各大门户网站、科技服务类网站,如新浪、腾讯、迈科技的科技新闻咨询也以每日数万条累计。针对如此海量的科技信息,用户通常会利用关键词进行分类、统计、搜索、推荐以满足对科技信息的有效获取。然而,目前网络中很多科技新闻、科技项目都缺乏关键词信息,很多科技论文或专利给定的关键词也存在不准确的问题。因此,如何为科技文献选取、更正合适的关键词尤为重要。
通常,针对小文本数据可以采用人工处理方式,但是人工方式主观性太强,且在面对海量科技文献场景时,人工方式效率极低,已经不能满足信息分析处理的需要。因此,进行高效且准确地关键词自动提取是非常有必要的。目前比较成熟的关键词提取方法有基于隐含主题模型的关键词提取、基于TF-IDF词频统计的关键词提取和基于TextRank词图模型的关键词提取。其中基于隐含主题模型的关键词提取方法领域通用性较差,TF-IDF词频统计方法对文档质量要求较高,在短文本的关键词提取中效果较差,TextRank方法依赖于词共现窗口,并没有依赖语义,导致提取的关键词可能缺乏主题相关性。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于word2vec和TextRank的科技文本关键词提取方法,通过word2vec获取词向量,进而计算向量的余弦相似度来代替词共现次数改进TextRank算法,以满足目前大数据时代下自然语言处理的各个领域对文本关键词精准提取的需求。具体内容如下:
1.科技语料的词向量训练
1.1 科技语料抓取
使用网络爬虫抓取中文科技文献作为科技领域的训练语料,包括论文、专利、项目的标题、关键词、摘要等信息,并进行数据清理,去除语料中的噪声,以保证语料的有效性。
1.2 构建科技词袋
提取上述训练语料中已抓取的关键词,进行关键词去重并通过词根特性及词法分析,结合关键词所在文献的质量因素,对关键词进行有效过滤和标准化,保留高质量关键词构建分词词袋。
1.3 训练词向量
使用步骤1.2构建的分词词袋对上述训练语料分词,接着使用word2vec模型将分词结果进行词向量训练。所述词向量训练结果包括分词词袋中的每个科技词及其语义向量。
2.目标科技文本的分词及分词关系的提取
将目标科技文本分词,分词方法基于步骤1.2构建的分词词袋。首先将科技词袋转化为前缀词典,进而基于前缀词典实现高效的词图扫描,生成包含所有成词情况的有向无环图(DAG)。采用动态规划查找最大概率路径, 找出基于词频的最大切分组合。对于科技词袋未收录但又有意义的未登录词,采用基于汉字成词能力的 HMM 模型及Viterbi 算法,并去除停用词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810842132.7/2.html,转载请声明来源钻瓜专利网。