[发明专利]一种基于互联语料的热门话题自动挖掘系统有效

申请号：	201510889261.8	申请日：	2015-12-07
公开（公告）号：	CN105488196B	公开（公告）日：	2019-01-22
发明（设计）人：	窦志成;文继荣;江政宝	申请（专利权）人：	中国人民大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/9535
代理公司：	北京中创阳光知识产权代理有限责任公司 11003	代理人：	尹振启
地址：	100872 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于互联语料的热门话题自动挖掘系统，该系统由两种路线组成：1)爬取现有热词统计站点的热词，通过聚类、实体抽取、关键字挖掘的步骤，生成一系列的热门话题；2)在大量新闻文档中抽取n‑gram，通过计算n‑gram的互信息和条件熵的值，在大量新闻文档中挖掘高频热词，并利用基于时间序列的事件侦测方法，识别新生话题。本发明不仅能够实时挖掘当下热点事件，并且在生成热门话题的同时，还会自动挖掘该话题的相关关键词和命名实体。
搜索关键词：	一种基于语料热门话题自动挖掘系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于互联语料的热门话题自动挖掘系统，其特征在于，所述系统由以下步骤组成：1)爬取现有热词统计站点的热词，通过聚类、实体抽取、关键字挖掘的步骤，生成一系列的热门话题；2)在大量新闻文档中抽取n‑gram，通过计算n‑gram的互信息和条件熵的值，在大量新闻文档中挖掘高频热词，并利用基于时间序列的事件侦测方法，识别新生话题；所述步骤1)具体为：(1)热词爬取：通过网络爬虫程序爬取众多热词站点，抽取其中的热词并存储；(2)热词检索：使用商用搜索引擎，检索话题标题，并将返回页面中的前N个结果存储起来；存储的内容包括检索页面每个结果的标题、摘要和链接URL；(3)热词聚类：利用话题的标题、所述步骤(2)中检索结果的标题和摘要计算不同话题之间的距离，并使用WQT方法聚类；每个话题由3部分信息组成：话题标题、检索结果中前N个标题、检索结果中前N个摘要；通过分析这3种信息生成描述话题的4个向量；系统首先对这3种文本进行分词，抽取其中的实体；将N个标题、N个摘要看做两个整体进行分析，分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率，进而计算每个词的tf‑idf值；这样每个话题会得到3个词频向量；另外，统计所有抽取出的实体的频率，得到1个实体向量；通过加权4个向量的余弦相似性得到两个话题的相似性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民大学，未经中国人民大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510889261.8/，转载请声明来源钻瓜专利网。

上一篇：一种应用程序的推荐方法及终端
下一篇：一种基于层次结构子话题的搜索结果多样化排序方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于互联语料的热门话题自动挖掘系统有效

专利文献下载