[发明专利]一种基于互联语料的热门话题自动挖掘系统有效
申请号: | 201510889261.8 | 申请日: | 2015-12-07 |
公开(公告)号: | CN105488196B | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 窦志成;文继荣;江政宝 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语料 热门话题 自动 挖掘 系统 | ||
1.一种基于互联语料的热门话题自动挖掘系统,其特征在于,所述系统由以下步骤组成:
1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘的步骤,生成一系列的热门话题;
2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息和条件熵的值,在大量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题;
所述步骤1)具体为:
(1)热词爬取:通过网络爬虫程序爬取众多热词站点,抽取其中的热词并存储;
(2)热词检索:使用商用搜索引擎,检索话题标题,并将返回页面中的前N个结果存储起来;存储的内容包括检索页面每个结果的标题、摘要和链接URL;
(3)热词聚类:利用话题的标题、所述步骤(2)中检索结果的标题和摘要计算不同话题之间的距离,并使用WQT方法聚类;每个话题由3部分信息组成:话题标题、检索结果中前N个标题、检索结果中前N个摘要;通过分析这3种信息生成描述话题的4个向量;系统首先对这3种文本进行分词,抽取其中的实体;将N个标题、N个摘要看做两个整体进行分析,分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率,进而计算每个词的tf-idf值;这样每个话题会得到3个词频向量;另外,统计所有抽取出的实体的频率,得到1个实体向量;通过加权4个向量的余弦相似性得到两个话题的相似性。
2.根据权利要求1所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤(3)中加权4个向量的余弦相似性的计算公式为:
其中,集合C包括4种类型,分别是话题标题tf-idf、检索结果标题tf-idf、检索结果摘要tf-idf、实体频率;表示话题t1的k类型向量,表示话题t2的k类型向量,wk表示k类型的权重,∑k∈Cwk=1。
3.根据权利要求1所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤2)具体为:
a)n-gram生成:利用Nagao串频统计方法,统计所有n-gram出现的频率及左右邻;其中,n≤N;
b)去常见词:利用分词字典去掉所有n-gram中的常见词;
c)n-gram成词度计算:统计每个n-gram出现的频率,并利用公式计算其互信息、左邻熵和右邻熵;最终经公式计算出一个n-gram的成词度;
d)n-gram热度趋势计算:通过公式计算每个n-gram的热度趋势,将n-gram的成词度计算公式与每个n-gram的热度趋势计算公式相乘得到一个n-gram的总得分;
e)n-gram聚类。
4.根据权利要求3所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤c)中每个n-gram互信息的计算公式为:
5.根据权利要求3所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤c)中每个n-gram左邻熵的计算公式为:
6.根据权利要求3所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤c)中每个n-gram右邻熵的计算公式为:
7.根据权利要求3所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤c)中每个n-gram成词度的计算公式为:
其中,
k是对词x的切分位置,xk表示x的左子串,x′k表示x的右子串。
8.根据权利要求3所述的基于互联语料的热门话题自动挖掘系统,其特征在于,所述步骤d)中每个n-gram的热度趋势的计算公式为:
λ为衰减系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510889261.8/1.html,转载请声明来源钻瓜专利网。