[发明专利]一种基于文本相似度的舆情话题跟踪方法在审

申请号：	202010031039.5	申请日：	2020-01-13
公开（公告）号：	CN111241281A	公开（公告）日：	2020-06-05
发明（设计）人：	张涛;张琨;朱显坤	申请（专利权）人：	北京工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/951;G06F40/289;G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本相似舆情话题跟踪方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本相似度的舆情话题跟踪方法，其特征在于：该方法包括如下步骤，

步骤1数据预处理

1)文本数据是使用爬虫技术，获爬取热点舆情话题以及该话题新闻相关新闻，获取高质量的舆情话题语料；

2)中文分词就是将连续的字序列，按照对中文的理解将其划分为单个词语的过程，采用jieba分词工具对文本进行分词，句子已经被划分为单个词；

3)在中文中正常的文本或是一句话会包含逗号、顿号或者句号特殊字符，完成分词之后会保留这些特殊字符，而在进行文本相似度计算时这些特殊字符会影响计算的速度和精度，所以这些字符需要过滤掉，除这些特殊字符之外，“而且、不仅、的、了”对文本相似度的计算也有影响，且这些词对最终计算结果不影响，所以在数据预处理阶段将这些词过滤掉；

步骤2文本相似性计算

由于文本数据是从网上抓取的内容，经过步骤1之后数据的长度可能会很短，采用两种方式进行文本相似度计算，即文本长度小于150的文本采用句子级别的计算方式，否则采用文档级别的计算方式，并在计算过程中将时间特性加入计算中，首先进行时间对比，若时差大于30天且相似性小于0.70的新闻个数小于100条，则认为相似度较低，若时差大于30天且相似性大于等于0.70的新闻个数大于100条则认为相似性较高，经最后加权处理得到对应的文本相似度；

步骤3话题跟踪结果

根据步骤2到对应文本的向量表达方式，使用k-means算法对文本数据进行图像展示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010031039.5/1.html，转载请声明来源钻瓜专利网。

上一篇：基于U-Net的遥感图像地物分割方法
下一篇：基于数据复用导向滤波和对比度拉伸的融合去雾电路

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本相似度的舆情话题跟踪方法在审

专利文献下载