[发明专利]一种新闻话题检测方法在审
申请号: | 201910400320.9 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110134787A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 吕学强;游新冬;董志安;李宁 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻话题 新闻报道 检测 话题 相似度 词类 聚类 取出 预处理 关键词抽取 相似度计算 动态演化 文本信息 新闻语料 自动更新 自动检测 类簇 抽取 应用 改进 | ||
1.一种新闻话题检测方法,其特征在于,包括:对文本信息进行关键词抽取、计算相似度。
2.根据权利要求1所述的新闻话题检测方法,其特征在于,所述新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。
3.根据权利要求1-2所述的新闻话题检测方法,其特征在于,步骤1)包括:
采用TFIDF和TextRank两个模型相结合的方法来进行关键词抽取;
分别取权值最高的前十个关键词作为个体提取的关键词集,经过加权平均并归一化后,再挑选出权值前十的关键词得到构建模型中的关键词集合;
将获得的关键词集进行归一化。
4.根据权利要求1-3所述的新闻话题检测方法,其特征在于,关键词抽取的方法具体为:对新闻报道进行预处理,将报道转换为词的格式,然后使用TFIDF算法和TextRank算法,设定加权公式,取得关键词的权重,获得每篇报道的关键词集合,完成新闻报道关键词的抽取。
5.根据权利要求1-4所述的新闻话题检测方法,其特征在于,加权平均公式如下:
Wij=(1{Ci∈TFj}αTi+(1{Ci∈TRj})βRi。
6.根据权利要求1-5所述的新闻话题检测方法,其特征在于,归一化公式为:
7.根据权利要求1-6所述的新闻话题检测方法,其特征在于,对关键词的抽取包括对新闻报道进行时间抽取的步骤,新闻报道中的时间包括绝对时间和相对时间;绝对时间具有时间单位和时间值,能够直接获得时间的准确时间,用如下公式来定义绝对时间:
AT={Year:,M:,D:};
用一个三元组来表示相对时间,如下:
ET=(AT,P,COUNT);
其中,AT表示该报道的绝对时间,若句子中没有绝对时间,则采用报道的时间作为绝对时间;P为偏移量,正值则表示是绝对时间以后的时间,负值表示绝对时间以前的时间;COUNT为偏移的数值。
8.根据权利要求1-7所述的新闻话题检测方法,其特征在于,步骤2)包括:将新闻报道转换为基于权重的特征向量,采用改进的相似度计算方法来计算新闻报道与话题类簇之间的相似度的公式如下:
SIM(m,n)=α×sim(m,n)-0.01-β(Time1-Time2);
其中,sim(m,n)表示当前新闻报道m与话题类簇n之间的相似度;(Time1-Time2)为当前新闻报道m中事件发生的时间Time1与话题类簇n中种子事件发生的时间Time2之间相隔的天数;α、β为调整因子;0.01为经验值;
采用夹角余弦来计算新闻报道w与类簇M的相似度的计算公式如下:
sim(w,M)=max(sim(w,Mi)),i=1,2,...,l。
9.根据权利要求1-8所述的新闻话题检测方法,其特征在于,所述聚类的方法采用单通道聚类法。
10.根据权利要求1-9所述的新闻话题检测方法,其特征在于,所述新闻话题检测方法包括:
步骤(1)对新闻语料集进行预处理,对文本信息进行关键词抽取;
步骤(2)根据时间-事件模型的格式,对报道内容进行向量表示;
步骤(3)对新文档进行相似度计算;
步骤(4)若相似度大于阈值,则将对象分配到该类簇中;否则,创造出一个新的类簇,将该对象加入到新的类簇中;
步骤(5)重复执行步骤(2)-步骤(4)直到数据流结束,过程结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910400320.9/1.html,转载请声明来源钻瓜专利网。