[发明专利]基于动态聚类和可视化的上下文语义序列比较方法在审
申请号: | 202310445169.7 | 申请日: | 2023-04-20 |
公开(公告)号: | CN116521858A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 马滨;任军霞;李响;唐嘉成;仇斌杰;赵建波 | 申请(专利权)人: | 浙江浙里信征信有限公司;天道金科股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35 |
代理公司: | 杭州信与义专利代理有限公司 33450 | 代理人: | 马育妙 |
地址: | 310000 浙江省杭州市西湖区文*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 可视化 上下文 语义 序列 比较 方法 | ||
1.一种基于动态聚类和可视化的上下文语义序列比较方法,其特征在于,对于实时流数据,基于BERTopic和KMeans++的动态聚类方法对连续更新的推文进行动态聚类后,再对动态流进行可视化分析,可视化分析具体包括步骤;
S1,根据用户选定的中心词,通过计算推文中每个单词与所述中心词的相似度来提取所述中心词的上下文关键词;并计算所述上下文关键词和所述中心词的公众关注度
S2,计算所述上下文关键词与这两个关键实体之间的关联度并可视化;
S3,根据所述中心词及其上下文关键词集合,通过迭代搜索方法,生成语义序列模式并可视化。
2.根据权利要求1所述的基于动态聚类和可视化的上下文语义序列比较方法,其特征在于,基于BERTopic和KMeans++的动态聚类方法对连续更新的推文进行动态聚类的方法包括步骤:
A1,BERTopic模型根据用户给定的所述中心词,对连续更新的推文中的所述上下文关键词进行文本识别,得到初始化t时刻待聚类的所述上下文关键词;
A2,使用KMeans++算法初始化t时刻的聚类首次聚类完成后,将聚类中心传递给t+1时刻的聚类
A3,在每个聚类时刻,判断中前m个所述上下文关键词是否同样存在于中,若是,则将与进行簇的合并,并对合并后的簇中的所述上下文关键词按照基于类的TF-IDF得分进行排序,将排名前x的所述上下文关键词形成的集合作为数据更新后的
A4,采用步骤A2-A3的方法,完成对所有时刻识别到的所述上下文关键词的聚类,并将最终合并的簇中的前y个所述上下文关键词所在的推文作为待进行可视分析的对象。
3.根据权利要求1所述的基于动态聚类和可视化的上下文语义序列比较方法,其特征在于,步骤S1中,通过余弦相似度计算方法,对所述中心词与推文中的每个单词进行相似度计算,并将排名前n的单词作为所述上下文关键词集合。
4.根据权利要求1所述的基于动态聚类和可视化的上下文语义序列比较方法,其特征在于,步骤S1中,计算所述中心词的所述上下文关键词的公众关注度的方法包括步骤:
S11,计算所述公众关注度计算方法通过如下公式(1)表达:
公式(1)中,k表示用户或系统选定的所述中心词;
c表示所述上下文关键词;
n表示数据集中的推文总数;
ui(c,k)是一个包含条件,表示第i条推文是否包含c和k,如果是,则ui(c,k)=1,否则为0;
ui(c,-k)表示第i条推文是否包含c但不包含k,如果是,则ui(c,-k)=1,否则为0;
ηi表示第i条推文是否被转发,如果是,则ηi=1,否则为0;
ri表示第i条推文被转发的数量;
S12,根据的值进行可视化。
5.根据权利要求1所述的基于动态聚类和可视化的上下文语义序列比较方法,其特征在于,步骤S2中,的计算方法通过如下公式(2)表达:
公式(2)中,分别表示所述上下文关键词i和关键实体A、关键实体B在时刻t的共现频率;
Rank表示计算了上下文关键词i的共现频率之差在所有i∈Wt中的排名;
Nt表示时刻t下中心词i的上下文关键词总数;
Wt表示时刻t下中心词的所有上下文关键词集合。
6.根据权利要求1所述的基于动态聚类和可视化的上下文语义序列比较方法,其特征在于,步骤S3中,生成所述语义序列模式的方法包括步骤:
S31,形成初始序列,所述初始序列包含保留推文中出现顺序的由用户选定的所述中心词和所述上下文关键词;
S32,遍历所述关键词集合中的每个所述上下文关键词,查找在所述初始序列中新加入集合中的一个单词后使得形成的语义新序列中的词在推文中的共现频率最大的单词,然后将寻找到的所述上下文关键词加入到所述初始序列中实现序列扩充,并在所述关键词集合中过滤掉新加入到所述初始序列中的所述上下文关键词;
S33,以步骤S32扩充得到的所述语义新序列为所述初始序列并返回步骤S31,从过滤剩余的所述关键词集合中继续扩充所述初始序列,直至扩充后的序列达到预设的序列长度,将最终得到的所述语义新序列作为生成的所述语义序列模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江浙里信征信有限公司;天道金科股份有限公司,未经浙江浙里信征信有限公司;天道金科股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310445169.7/1.html,转载请声明来源钻瓜专利网。