[发明专利]确定消息主题的方法及装置有效
申请号: | 201810078050.X | 申请日: | 2018-01-26 |
公开(公告)号: | CN110084710B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 李菁;宋彦 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F16/955;G06F16/9536 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 消息 主题 方法 装置 | ||
本发明的实施例提供了一种确定消息主题的方法及装置。该确定消息主题的方法包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。本发明实施例的技术方案能够保证得到更加准确的消息主题,提高了确定的消息主题的质量。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种确定消息主题的方法及装置。
背景技术
目前,在提取社交媒体中的消息主题时,通常是将每条消息作为一篇文章(例如:微信朋友圈中的每一条状态被看成一篇文章),然后利用传统的主题模型来抽取消息的主题。由于传统的主题模型主要是基于文章中的词语共现关系来抽取主题的,而社交媒体中的消息过于简短,因此传统的主题模型性能较差,不能抽取到准确的消息主题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种确定消息主题的方法及装置,进而至少在一定程度上克服现有技术中无法准确得到消息主题的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一个方面,提供了一种确定消息主题的方法,包括:从待处理的消息集合中获取具有关联关系的多条消息;生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型用于表示具有不同功能标签的消息包含各种类型的词的概率;基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;根据所述主题标签的词分布概率,确定所述多条消息的主题。
在本发明的一些实施例中,基于前述方案,在从待处理的消息集合中获取具有关联关系的多条消息之前,还包括:将所述待处理的消息集合中的消息按照所述关联关系划分为至少一组消息,所述至少一组消息中的每组消息包含有所述多条消息。
在本发明的一些实施例中,基于前述方案,根据所述主题标签的词分布概率,确定所述多条消息的主题,包括:对所述主题标签的词分布概率进行排序;按照概率从大到小的顺序,选择至少一个主题词作为所述多条消息的主题。
根据本发明实施例的一个方面,提供了一种确定消息主题的装置,包括:获取单元,用于从待处理的消息集合中获取具有关联关系的多条消息;模型生成单元,用于生成所述多条消息中每条消息对应的主题标签的分布模型、功能标签的分布模型和词类别标签的分布模型,所述词类别标签的分布模型表示具有不同功能标签的消息包含各种类型的词的概率分布;处理单元,用于基于所述主题标签的分布模型、所述功能标签的分布模型和所述词类别标签的分布模型,确定所述主题标签的词分布概率;确定单元,用于根据所述主题标签的词分布概率,确定所述多条消息的主题。
在本发明的一些实施例中,基于前述方案,所述获取单元用于:根据消息之间的回复和/或转发关系,从所述消息集合中获取具有所述回复和/或转发关系的多条消息。
在本发明的一些实施例中,基于前述方案,所述的确定消息主题的装置还包括:消息树生成单元,用于基于所述多条消息之间的回复和/或转发关系,生成所述多条消息对应的消息树。
在本发明的一些实施例中,基于前述方案,所述模型生成单元用于:生成所述多条消息对应的主题标签的多项式分布,所述多条消息对应的主题标签的多项式分布表示各个主题标签在所述多条消息中出现的概率分布;根据所述多条消息对应的主题标签的多项式分布,生成所述多条消息中每条消息对应的主题标签的分布模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810078050.X/2.html,转载请声明来源钻瓜专利网。