[发明专利]一种基于语义、时间和社交关系的中文微博话题检测方法及系统无效

申请号：	201910631312.5	申请日：	2019-07-12
公开（公告）号：	CN110489548A	公开（公告）日：	2019-11-22
发明（设计）人：	杜军平;薛哲;程鹏超;寇菲菲	申请（专利权）人：	北京邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于语义、时间和社交关系的中文微博话题检测方法及系统，用以解决话题检测中微博数据由于文本短小、口语化和一词多义等缺点导致的话题检测效果不佳的问题，该方法包括步骤：采集一定时间间隔上的相关话题的微博数据；使用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)在采集的微博数据上进行预训练；通过预训练好的BERT模型对微博文本进行向量化表示，得到基于上下文语义的微博语义表示；提出综合考虑时间因素和微博之间转发关系的文本聚类算法，从而解决传统微博话题检测仅考虑文本语义相似的问题。本发明主要用于微博搜索的任务，利用相关微博的话题检测结果来提高微博搜索命中率。
搜索关键词：	微博话题检测搜索文本采集上下文语义社交关系时间因素文本聚类文本语义语言模型语义表示综合考虑语义口语化向量化命中率多义算法转发中文话题
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于语义、时间和社交关系的中文微博话题检测方法，其特征在于，所述方法包括以下步骤：/nS1.微博数据的预处理：去除已有微博数据集文本中的无效信息、无用字符和停用词等，并构建预训练语言模型BERT(Bidirectional Encoder Representation fromTransformers)的输入，即将微博数据预处理成为文本字集；/nS2.微博文本的表示学习：利用预处理好的微博文本字集对BERT模型进行预训练，通过BERT模型基于MLM(Masked Language Model)训练的机制，可以得到具有丰富语义信息的微博文本向量表示；/nS3.微博话题的检测：使用提出的综合考虑时间因素和微博之间转发关系的文本聚类算法，对微博话题检测数据集进行话题的自动检测，从而得到微博数据集中的话题内容。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910631312.5/，转载请声明来源钻瓜专利网。

上一篇：一种基于混合式监督学习的旅游景点推荐方法及装置
下一篇：教学文本对比方法、装置、电子设备及介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语义、时间和社交关系的中文微博话题检测方法及系统无效

专利文献下载