[发明专利]一种基于文本相似度的舆情话题跟踪方法在审
申请号: | 202010031039.5 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111241281A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 张涛;张琨;朱显坤 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F40/289;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 相似 舆情 话题 跟踪 方法 | ||
本发明公开了一种基于文本相似度的舆情话题跟踪方法,基于word2vec模型演化而来的doc2vec模型,可以很好的获得句子、段落或者文档的向量的表达,很适合对舆情话题的处理,但是该模型忽略了舆情话题的时间特性,本发明将时间特性作为重要特征加入到算法,确保话题的时效性,同时采用选文本相似性计算方式,实验结果表明采用上述方式对舆情话题跟踪表现出良好的效果。与现有技术相比较,本发明在句子、段落或者文档的向量的表达上数据维度相对较低降低了时间复杂度,语义的表达相对更加准确,提升了文本相似度计算精确性,且本发明在现有模型的基础添加时间特性确保话题的时效性,经过实验测试本发明在话题跟踪方面效果良好。
技术领域
本发明属于自然语言处理中话题追踪领域,尤其涉及一种基于文本相似度的话题跟踪方法的研究创新。
背景技术
话题跟踪是指给出某话题的一条或多条报道,把输入进来的相关报道和该话题联系起来。根据跟踪需求可以把步骤分成以下两步:首先给出一组样本报道,通过模型训练得到话题模型,然后在后续的报道中找出相似或者同样的话题报道,话题跟踪(TopicTracking)可以把分散且多变的话题汇集并组织起来,帮助用户发现话题间的关系,从整体上了解舆情话题的各个方面的信息以及话题与话题之间的联系。随着相关技术的发展和进步,话题跟踪研究目标和处理对象已不仅限于媒体信息流,而是越来越广泛地应用于与信息相关的各个领域。本发明以文本相似度计算方式对舆情话题进行跟踪,而目前在文本相似度方面,有两种主流的文本相似度计算的方式,基于字符串方式和基于语料库方式。
1基于字符串
基于字符串的方式是从字符串匹配度出发,以字符串共现和重复程度为相似度的标准来衡量,根据计算粒度的不同又可将该方式分为基于字符方式和基于词方式;当前单纯从字符或者词组成的角度考虑的相似性算法有编辑距离、汉明距离、Dice系数、余弦相似度等方式计算文本相似度,在此基础上加入字符顺序的方法有Jaro-Winkler以及最长公共字串方式;基于上述两种方式又采用了一种集合思想也就是将字符串看成有词语构成的集合,词语共现采用集合的交集来计算,当前主要方法N-gram和Jaccard等方法。
2基于语料库
基于语料库的方法使用从语料库中获取的信息计算文本相似度,而基于语料库的方法又可以分为:基于词袋模型、基于神经网络模型,且两种方法是以待比较相似度的文档集合作为语料库。
1)基于词袋模型
词袋模型是建立在分布假说的基础上,也就是词语所处的上下文语境相似,则语义相似,词袋模型的基本思想是不考虑词语在文档中出现的顺序,把文档表示成一系列词语的组合。根据语义的不同,基于词袋模型的方法当前主要包括向量空间模型(VectorSpace Model,VSM)、概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)、潜在语义分析(Latent Semantic Analysis,LSA)以及潜在狄利克雷分布(LatentDirichlet Allocation,LDA)等主流模型方式。
2)基于神经网络模型
基于神经网络模型生成词向量来计算文本相似度是近年来该领域研究的热门领域,在这个过程中提出很多如Word2Vec和Glove等词向量模型。词向量的本质是从没有标记的非结构文本中训练出一种低维实数向量,这样的表达方式使得类似的词语在距离上更为接近,同时也能更好的解决词袋模型由于词语独立带来的维数灾难和语义不足的问题。
3 doc2vec算法
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010031039.5/2.html,转载请声明来源钻瓜专利网。