[发明专利]基于动态聚类和可视化的上下文语义序列比较方法在审
申请号: | 202310445169.7 | 申请日: | 2023-04-20 |
公开(公告)号: | CN116521858A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 马滨;任军霞;李响;唐嘉成;仇斌杰;赵建波 | 申请(专利权)人: | 浙江浙里信征信有限公司;天道金科股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35 |
代理公司: | 杭州信与义专利代理有限公司 33450 | 代理人: | 马育妙 |
地址: | 310000 浙江省杭州市西湖区文*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 可视化 上下文 语义 序列 比较 方法 | ||
本发明公开了一种基于动态聚类和可视化的上下文语义序列比较方法,其中提供的ContextWing系统,支持对两个数据流之间不断演变的上下文序列模式进行两两比较。计算模型部分能够生成动态主题和序列模式,计算公众关注度和成对相关性。系统中还包含一种新颖的多层双边翼隐喻设计,能够直观地展示不同上下文融合的序列模式,以揭示两个序列在时间和语义方面的异同。交互式工具则支持选择中心词及其上下文关键词,以迭代地生成模式以进行重点探索。另外,系统还支持静态和流式设置分析,支持更广泛的应用场景。
技术领域
本发明涉及数据分析技术领域,具体涉及一种基于动态聚类和可视化的上下文语义序列比较方法。
背景技术
随着社交媒体的快速发展,许多人喜欢通过发布消息来表达自己的观点和概念,传播重大新闻,这些新闻以数据流的方式出现,包含相同关键词的推文集合形成一个社交媒体数据流。为了方便社会科学研究人员和舆论分析人员快速理解大量社交媒体数据,提供嵌入社交媒体信息的意见摘要尤为重要。这些推文的可视化摘要可以让用户快速理解这些文本数据。
词云是为文本数据提供可视化摘要的常用方法。然而,词云提供的上下文信息有限,不能提供关键词之间的联系来传达句子的意思。因此,我们提取在句子中按顺序出现的关键词序列作为推文的摘要。同时,由于许多推文包含相同的序列,我们将这种序列定义为“模式”。例如,“选举辩论定于周四晚上9点开始”、“选举辩论将于周四开始”等。人们有不同的表达方式,但他们都提到了相同的关键词和顺序:“选举-辩论-周四开始”,这样频繁出现的语义序列即为一个模式。模式是非常多样的,需要比较它们之间的异同来了解民意。此外,由于这些模式属于不同的时间段,还需要从时间层面对模式进行比较。此外,为了帮助分析公众态度,需要比较模式和不同数据流之间的关系。为了处理这些复杂的分析,可以使用可视化技术来支持比较。
文本的视觉比较是一个广泛的研究课题。但是,目前缺乏支持同时比较序列的时变特征和语义特征,以及在不同数据流中的分析方法。首先,在序列分析中很难将语义比较和动态比较结合起来。一些学者使用树形结构解决了序列比较的挑战,帮助人们快速理解基本概念和想法,然而,这种方法仅限于静态文本序列数据,不支持时间比较。支持多个标签云之间的时间趋势比较的工作又无法支持序列比较,因为关键词之间缺乏连接。因此,很难将序列的时间和语义比较同时可视化。其次,比较不同数据流中的语义和动态具有挑战性。一些工作解决了两个数据流之间多项目的成对可视化比较的挑战,但仍然不能应用于序列来显示更多的上下文和连接。第三,除了历史的社交媒体数据,实时分析对现实世界的流动数据来说更具挑战性,但也更重要,难点在于它需要快速的建模方法和动态可视化来揭示短时间内的特征。总的来说,缺乏一种可视化技术来支持同时在两个数据流中对时间和语义序列模式进行两两比较,也缺乏支持实时模式的分析
发明内容
本发明以实现对文本序列的时间和语义比较同时可视化,并实现不同数据流间的语义和动态比较为目的,提供了一种基于动态聚类和可视化的上下文语义序列比较方法。
为达此目的,本发明采取以下技术方案:
提供一种基于动态聚类和可视化的上下文语义序列比较方法,对于实时流数据,基于BERTopic和KMeans++的动态聚类方法对连续更新的推文进行动态聚类后,再对动态流进行可视化分析,可视化分析具体包括步骤;
S1,根据用户选定的中心词,通过计算推文中每个单词与所述中心词的相似度来提取所述中心词的上下文关键词;并计算所述上下文关键词和所述中心词的公众关注度
S2,计算所述上下文关键词与这两个关键实体之间的关联度并可视化;
S3,根据所述中心词及其上下文关键词集合,通过迭代搜索方法,生成语义序列模式并可视化。
作为优选,基于BERTopic和KMeans++的动态聚类方法对连续更新的推文进行动态聚类的方法包括步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江浙里信征信有限公司;天道金科股份有限公司,未经浙江浙里信征信有限公司;天道金科股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310445169.7/2.html,转载请声明来源钻瓜专利网。