[发明专利]一种基于万有引力改进的TextRank的新闻关键词提取方法在审
申请号: | 201910441723.8 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110162592A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 张静静;孙福权;刘冰玉;孔超然 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/951;G06F17/27 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于万有引力改进的TextRank的新闻关键词提取方法。本发明方法包括如下步骤:对采集到的新闻数据进行数据预处理;计算数据预处理后的新闻数据中词与词之间的共现频率,并通过CBOW模型训练词向量,构建主题模型得到文档中主题下词的概率分布和文档下主题的分布计算每篇文档下预设词的主题影响力;通过词之间的共现频率、词在文档下主题影响力和词之间的距离计算出词与词之间的吸引力,利用TextRank算法迭代计算得到有序的关键词序列,根据排序好的关键词序列得到指定数量的关键词。本发明充分的利用了文档内部与外部信息,利用该发明提取出的关键词更加准确,客观。本方法不需要大量的标注语料,节省了大量的人力和时间成本。 | ||
搜索关键词: | 文档 万有引力 关键词序列 新闻关键词 新闻数据 预处理 数据预处理 分布计算 概率分布 计算数据 距离计算 模型训练 时间成本 算法迭代 外部信息 主题模型 词向量 构建 语料 预设 标注 排序 改进 采集 | ||
【主权项】:
1.一种基于万有引力改进的TextRank的新闻关键词提取方法,其特征在于,包括如下步骤:对采集到的新闻数据进行数据预处理,获得用于分析的规整数据;计算数据预处理后的新闻数据中词与词之间的共现频率,并通过CBOW模型训练词向量,然后构建主题模型得到文档中主题下词的概率分布和文档下主题的分布计算每篇文档下预设词的主题影响力;通过词之间的共现频率、词在文档下主题影响力和词之间的距离计算出词与词之间的吸引力,利用TextRank算法迭代计算得到有序的关键词序列,根据排序好的关键词序列得到指定数量的关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910441723.8/,转载请声明来源钻瓜专利网。