[发明专利]一种基于文本相似度的舆情地域热点发现方法在审

申请号：	201710155186.1	申请日：	2017-03-15
公开（公告）号：	CN106844786A	公开（公告）日：	2017-06-13
发明（设计）人：	鄢秋霞;辛如意;高铖;文兵	申请（专利权）人：	中国电子科技网络信息安全有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	成都九鼎天元知识产权代理有限公司51214	代理人：	项霞
地址：	610207 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本相似舆情地域热点发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络技术领域，特别是涉及一种基于文本相似度的舆情地域热点发现方法。

背景技术

随着互联网的大力普及，网络媒体在社会传播中趋于主流化，各类互联网应用在信息传播中的优势凸显，吸引了社会众多各类群体的参与，互联网向社会各界加速渗透。随着其功能的不断拓展和深化，互联网越来越成为当今社会重要的舆情载体。网络舆情已经对社会的稳定和众多上网的人们产生了重大的影响，它发生的范围广，传播速度快，以及它的爆发点具有不易发现和控制等特点，这使得对网络中舆情的有效的发现与监控变得非常重要。而新闻和微博已成为网络舆情中热点事件发布和推动的新阵地。如何快速有效地从网络舆情文本中挖掘热点话题并追踪话题演变、预测话题倾向，从而分析挖掘网络舆情动态，为商业决策提供有价值的信息，是当前研究面临的一个热点。然而当前大多舆情分析主要针对网络行为开展，忽略了网络舆情的地域信息，将舆情在网络上的传播与其地理位置联系起来分析是网络舆情的研究趋势。可见，构建不同地域的热门话题，可以及时为用户提供所关注的某个地域热门话题的产生背景和发展趋势，从而减少负面话题所带来的影响。

目前国内的舆情监控系统中的热点话题发现的实现方法通常采用关键词匹配、统计词频的方式，或者一般的文本聚类方式，识别出热门话题。基于关键词匹配、统计词频的方法通常需要大量的在线计算，而且得到的热点话题并不是特别准确；而基于一般的文本聚类的热点话题发现方法计算复杂度过高，直接导致系统热点话题的延迟性。可见如何准确、及时地发现热点话题是当前亟待解决的问题。

另外，现有的热点事件发现方法是从网络中获取海量信息，然后从海量信息中发现热点事件，但是，由于缺乏地域的针对性，通过这种方法挖掘出的热点事件有时并不是用户所关心的。

发明内容

为解决上述问题，本发明提供了一种基于文本相似度的舆情地域热点发现方法，包括如下步骤：

步骤一：预先建立地理数据库。

步骤二：识别出待识别文档中的地域词，然后根据地理数据库匹配出该地域词对应的地理数据。

步骤三：指定待识别文档中准备进行分词的内容，对该部分内容进行分词，提取特征词，并计算各个特征词的词频，将文档向量化。

步骤四：计算被分词内容与各个已有话题类别中的中心向量的余弦相似度，获取与被分词内容具有相似度的话题并得到余弦相似度值，若余弦相似度值小于或等于预先设定的阈值，则将被分词内容置为一个新的话题，并加入其对应的文档涉及的地域信息。若余弦相似度值大于阈值，则将被分词内容归为已知的话题类别中，并更新该话题类别的中心向量，加入其对应的文档涉及的地域信息。

步骤五：对重复执行步骤二至四，直到完成所有待识别文档的

地域热点分析。

步骤六：选择文档数符合规定的话题，统计其地域信息。

进一步的，步骤一中所述的地理数据库包括中国的省、市、县三级地理数据。

进一步的，步骤二中采用ICTCLAS汉语词法分析系统筛选出词性为地域名称的词语。

进一步的，步骤三中，文档标题或者规定长度的内容作为准备分词的内容。

进一步的，步骤三中，选择规定长度的内容前，待识别文档的内容会被预先过滤。

进一步的，待识别文档中被过滤掉的内容包括用户名和/或英文字符和/或数字和/或数学字符和/或标点符号/或语气助词和/或标点符号和/或url标签。

进一步的，步骤四中，计算被分词内容与各个已有话题类别的中心向量的公式为：

其中，cos(θ)代表余弦相似度，A＝(A₁，…，A_n)，A表示被分词内容的向量，A_i(1，2，…，n)表示各个特征词的词频。B＝(B₁，…，B_n)，表示进行比较时所选中的已有话题类别的中心向量，B_i(1，2，…，n)表示各个特征词的词频。n表示A、B特征词并集元素的个数。

进一步的，步骤四中，更新话题类别的中心向量的公式为：

其中W_new表示该话题类别中新的中心向量，W_old表示该话题类别原来的中心向量，W_d表示被分词内容的中心向量，n表示该话题类别中的文档数目。