[发明专利]一种基于互联语料的热门话题自动挖掘系统有效

专利信息
申请号: 201510889261.8 申请日: 2015-12-07
公开(公告)号: CN105488196B 公开(公告)日: 2019-01-22
发明(设计)人: 窦志成;文继荣;江政宝 申请(专利权)人: 中国人民大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/9535
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100872 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语料 热门话题 自动 挖掘 系统
【说明书】:

发明公开了一种基于互联语料的热门话题自动挖掘系统,该系统由两种路线组成:1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘的步骤,生成一系列的热门话题;2)在大量新闻文档中抽取n‑gram,通过计算n‑gram的互信息和条件熵的值,在大量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。本发明不仅能够实时挖掘当下热点事件,并且在生成热门话题的同时,还会自动挖掘该话题的相关关键词和命名实体。

技术领域

本发明涉及一种基于互联语料的热门话题自动挖掘系统。

背景技术

现有的热词挖掘系统主要有三种方法:基于规则匹配的方法,基于站点统计信息的方法和基于事件侦测的方法。基于规则匹配的方法需要大量的领域知识,利用手工建立的热词匹配模板挖掘热词。基于站点统计信息的方法主要利用站点流量的统计数据,例如门户网站的新闻访问日志、搜索引擎的查询日志等,并从高频访问内容中挖掘热词。基于事件侦测的方法首先利用命名实体识别、高频串统计等方法,挖掘出候选热词,再此基础上,利用时间序列分析的相关方法,在候选集合中选取热度趋势明显的词作为最终结果。

基于规则匹配的方法需要大量的先验知识,虽然准确性较高,但是可扩展性较差,不同领域的匹配模板不能复用;基于站点统计信息的方法需要基于大量的用户群体,收集大量日志,这些数据是中小公司或科研单位无法获得的;基于事件侦测的方法首先需要生成高质量的候选词,由于互联网上的信息日新月异,新词层出不穷,未登录词问题对于这种方法是一个挑战。

因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。

发明内容

针对背景技术中存在的问题,本发明的目的在于提供一种基于互联语料的热门话题自动挖掘系统,该系统不仅能够实时挖掘当下热点事件,并且在生成热门话题的同时,还会自动挖掘该话题的相关命名实体。

本发明的目的是通过以下技术方案来实现的:

一种基于互联语料的热门话题自动挖掘系统,所述系统由两种路线组成:

1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘的步骤,生成一系列的热门话题;

2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息和条件熵的值,在大量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。

进一步,所述路线1)具体为:

(1)热词爬取:通过网络爬虫程序爬取众多热词站点,抽取其中的热词并存储;

(2)热词检索:使用商用搜索引擎,检索话题标题,并将返回页面中的前N个结果存储起来;存储的内容包括检索页面每个结果的标题、摘要和链接URL;

(3)热词聚类:利用话题的标题、所述步骤(2)中检索结果的标题和摘要计算不同话题之间的距离,并使用WQT方法聚类;每个话题由3部分信息组成:话题标题、检索结果中前N个标题、检索结果中前N个摘要;通过分析这3种信息生成描述话题的4个向量;系统首先对这3种文本进行分词,抽取其中的实体;将N个标题、N个摘要看做两个整体进行分析,分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率,进而计算每个词的tf-idf值;这样每个话题会得到3个词频向量;另外,统计所有抽取出的实体的频率,得到1个实体向量;通过加权4个向量的余弦相似性得到两个话题的相似性。

进一步,所述步骤(3)中加权4个向量的余弦相似性的计算公式为:

其中,集合C包括4种类型,分别是话题标题tf-idf、检索结果标题tf-idf、检索结果摘要tf-idf、实体频率;表示话题t1的k类型向量,wk表示k类型的权重,∑k∈Cwk=1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510889261.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top