[发明专利]一种基于万有引力改进的TextRank的新闻关键词提取方法在审
申请号: | 201910441723.8 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110162592A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 张静静;孙福权;刘冰玉;孔超然 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/951;G06F17/27 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 万有引力 关键词序列 新闻关键词 新闻数据 预处理 数据预处理 分布计算 概率分布 计算数据 距离计算 模型训练 时间成本 算法迭代 外部信息 主题模型 词向量 构建 语料 预设 标注 排序 改进 采集 | ||
1.一种基于万有引力改进的TextRank的新闻关键词提取方法,其特征在于,包括如下步骤:
对采集到的新闻数据进行数据预处理,获得用于分析的规整数据;
计算数据预处理后的新闻数据中词与词之间的共现频率,并通过CBOW模型训练词向量,然后构建主题模型得到文档中主题下词的概率分布和文档下主题的分布计算每篇文档下预设词的主题影响力;
通过词之间的共现频率、词在文档下主题影响力和词之间的距离计算出词与词之间的吸引力,利用TextRank算法迭代计算得到有序的关键词序列,根据排序好的关键词序列得到指定数量的关键词。
2.根据权利要求1所述的基于万有引力改进的TextRank的新闻关键词提取方法,其特征在于,利用网络爬虫采集所述新闻信息,所述数据预处理包括对给定的新闻数据分词、去停用词、去除超链接与符号处理。
3.根据权利要求1所述的基于万有引力改进的TextRank的新闻关键词提取方法,其特征在于,利用现有CBOW模型对新闻数据进行训练,从而将词表征为实数值向量,实现对文本内容的处理简化为K维向量空间中的向量,从而得到词向量之间的欧式距离:
其中veci和vecj表示词wi与词wj的向量。
4.根据权利要求1所述的基于万有引力改进的TextRank的新闻关键词提取方法,其特征在于,构建隐含主题模型LDA,其中,每篇文档由k个隐含主题分布表示,每个主题有多个词的多项式分布表示,通过以下公式计算文档d中词w的主题影响力:
其中为文档d中主题z的概率,为主题为i下的词w的概率;
通过Gibbs采样得到词主题分布概率和主题文档的分布概率:
其中num(d,z)表示文档d分配给主题z的频数,num(z,w)表示主题z分配给词的频数,α和β分别表示θ(d)和的超参数,通过结合公式(2)(3)(4)可以得到词w在文档d下的主题影响力。
5.根据权利要求1或4所述的基于万有引力改进的TextRank的新闻关键词提取方法,其特征在于,所述万有引力常数具体为:
其中freq(wi,wj)是词wi,词wj共现的次数,freq(wi),freq(wj)分别是词wi,词wi出现在句子中的次数。
6.根据权利要求5所述的基于万有引力改进的TextRank的新闻关键词提取方法,其特征在于,词与词之间的吸引力通过词在文档中的主题影响力作为词的质量,词向量之间的余弦距离表示词之间的距离,词共现频率为词之间的万有引力常数计算获得,具体为:
其中Gc(i,j)为词之间的共现频率,M(wi|d)和M(wj|d)分别为词在文档下主题影响力,di,j为词i,j之间的距离;
对文档进行图模型表示,设G=(V,E)是一个图,其中V是顶点集合,E是边的集合,则文档中的每个词为图模型中的顶点Vi,在同一句中共现的词构成图中的边Ei,j,利用TextRank算法迭代计算各图模型节点的权重,从而得到有序的关键词序列,根据排序好的关键词序列得到指定数量的关键词,
其中,Ws(wi)为单词wi的权重得分,In(wi)表示单词wi的共现词集合,In(wj)表示单词wj的共现词集合,d为阻尼系数,0≤d≤1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910441723.8/1.html,转载请声明来源钻瓜专利网。