[发明专利]一种基于word2vec和TextRank的科技文本关键词提取方法在审

申请号：	201810842132.7	申请日：	2018-07-27
公开（公告）号：	CN108920466A	公开（公告）日：	2018-11-30
发明（设计）人：	徐小良;袁佳彬;王宇翔	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	杭州千克知识产权代理有限公司 33246	代理人：	周希良
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于word2vec和TextRank的科技文本关键词提取方法。本发明使用科技语料训练word2vec模型，获取每个词的语义向量；针对待处理文本进行分词处理，并以每个词为顶点，词在滑动窗口中的词共现关系为边，词的相似度为权重构建有向带权图；为每个词赋予初始权重，进而基于边的语义相似度设计改进的TextRank算法，实现顶点权重的迭代更新。直至两次迭代的误差小于一个极小值ε，以此作为每个词的最终权重；取前N个权重最高的关键词作为该文本的关键词。本发明综合考虑了词与词在语义上的距离，以此来改进TextRank算法，使词的权重表示更为精准，从而提高文本关键词提取的可靠性、有效性。
搜索关键词：	文本关键词权重算法文本有向带权图语义相似度语义初始权重迭代更新分词处理滑动窗口语义向量综合考虑顶点权相似度迭代语料重构改进赋予
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于word2vec和TextRank的科技文本关键词提取方法，其特征在于，该方法包含如下步骤：步骤1：科技语料的词向量训练步骤1.1使用网络爬虫抓取中文科技文献作为科技领域的训练语料，包括论文、专利、项目的标题、关键词和摘要，并进行数据清理，去除语料中的噪声，以保证语料的有效性；步骤1.2 提取上述训练语料中已抓取的关键词，进行关键词去重并通过词根特性及词法分析，结合关键词所在文献的质量因素，对关键词进行有效过滤和标准化，保留高质量关键词，构建分词词袋；步骤1.3 使用步骤1.2构建的分词词袋对上述训练语料分词，接着使用word2vec模型将分词结果进行词向量训练；所述词向量训练结果包括分词词袋中的每个科技词及其语义向量；步骤2：目标科技文本的分词及分词关系的提取使用步骤1.2构建的分词词袋对目标科技文本进行分词，接着使用一个长度为n的滑动窗口从分词结果开头滑动至末尾，滑动过程中记录下任意出现在同一滑动窗口中的两个词的组合，这样两个词存在上下文关系，在步骤3构建有向带权图时需要在这两个词间添加一条边；步骤3：构建科技文本分词结果的有向带权图针对科技文本的分词结果构建有向带权图G=(V,E,W)；其中，科技文本分词结果中的所有科技词作为G的顶点集，记为V；步骤2中获取的分词关系作为G的边集，记为E；G中每条边都具有权值，权值集记为W，边的权值由步骤1.3生成的词向量做余弦相似度得到；步骤4：顶点权重的迭代计算及文本关键词的获取首先为每个顶点赋予相同的权重，该权重表示这个词在整个文本中的重要性；顶点的权重在每次迭代计算中由相邻顶点权重及边的权重计算得到，具体的迭代计算过程如下：a)遍历图中每一个顶点逐个更新权重；b)针对每一个顶点，取出与之相邻的每个顶点及边参与权重的更新；c)当两次计算的顶点权重误差小于一个极小值ε，迭代计算完成；其次，将各个顶点按权重由高到低排列，取前N个顶点代表的词作为文本的关键词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810842132.7/，转载请声明来源钻瓜专利网。

上一篇：一种基于句法语义的农业领域关系抽取方法
下一篇：多义词词义学习方法及装置、搜索结果显示方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于word2vec和TextRank的科技文本关键词提取方法在审

专利文献下载