[发明专利]一种新话题的自动挖掘方法和系统有效
申请号: | 202010153596.4 | 申请日: | 2020-03-06 |
公开(公告)号: | CN111339784B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 谢杨易 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 杨永梅 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 话题 自动 挖掘 方法 系统 | ||
本说明书的一个方面提供一种新话题的自动挖掘方法和系统。所述方法包括:获取历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离;基于所述第一语义距离确定至少一个第一簇;确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;获取包含历史文本和新增文本的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离;基于所述第二语义距离确定至少一个第二簇;确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。
技术领域
本说明书涉及文本处理领域,特别涉及一种新话题的自动挖掘方法和系统。
背景技术
随着互联网信息的大幅膨胀,信息量呈指数增长,文本数据尤其的多,挖掘文本数据的价值显得十分关键。而新话题挖掘可以指导用户改进自己的产品、发觉最新热点,时效性强、价值很高,是文本挖掘中的重要一环。人工进行文本挖掘中的新话题发现,由于文本数据量比较大而人力少,耗时且成本较高。因此,期望提供一种新话题的自动化挖掘方法。
发明内容
本说明书的一个方面提供一种新话题的自动挖掘方法,所述方法包括:获取历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离;基于所述第一语义距离确定至少一个第一簇;确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;获取包含历史文本和新增文本的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离;基于所述第二语义距离确定至少一个第二簇;确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。
在一些实施例中,所述第一语义距离和所述第二语义距离均为余弦距离。
在一些实施例中,所述第一语义距离的确定方法包括:对所述历史文本数据进行预处理;利用BERT神经网络对预处理后的历史文本数据进行编码;基于编码后的历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离。
在一些实施例中,所述第二语义距离的确定方法包括:对所述文本合集数据进行预处理;利用BERT神经网络对预处理后的文本合集数据进行编码;基于编码后的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离。
在一些实施例中,所述预处理包括清洗文本数据中的噪声数据,所述噪声数据至少包括广告数据、色情数据、语句不通顺数据和/或重复数据。
在一些实施例中,所述基于所述第一语义距离确定至少一个第一簇包括:基于所述第一语义距离利用HDBSCAN聚类算法确定至少一个第一簇。
在一些实施例中,所述基于所述第二语义距离确定至少一个第二簇包括:基于所述第二语义距离利用HDBSCAN聚类算法确定至少一个第二簇。
在一些实施例中,所述第一话题或所述第二话题的确定方法包括:对于每个簇,确定所述簇中每个子集为所述簇的中心的概率值;确定所述概率值最大的子集为所述簇的聚类中心;基于所述聚类中心确定对应簇的第一话题或第二话题。
在一些实施例中,所述方法还包括:当所述至少一个第二簇中第二话题与至少一个第一簇中任意一个第一话题的第三语义距离均小于或等于预设距离阈值时,确定所述第二话题为老话题,所述老话题包括本次新话题自动挖掘之前确定的新话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010153596.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结构型混合异波长谐振陶瓷滤波器
- 下一篇:显示装置与工作线路