[发明专利]短文本处理方法及装置有效
申请号: | 201510250477.X | 申请日: | 2015-05-15 |
公开(公告)号: | CN104850617B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 阮星华;张文 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了短文本处理方法及装置。所述方法包括获取第一短文本集合,并对第一短文本集合进行预处理;基于预处理后的第一短文本集合,执行如下处理步骤使用预处理后的第一短文本集合训练主题模型LDA,得到第一短文本集合中各短文本的主题概率分布;对主题概率分布进行聚类,确定第一短文本集合中各短文本的主题类别。本申请通过训练主题模型并进一步对主题概率分布进行聚类,可以得到短文本的主题类别,实现了对短文本准确分类的目的。 | ||
搜索关键词: | 文本 处理 方法 装置 | ||
【主权项】:
一种短文本处理方法,其特征在于,包括:获取第一短文本集合,并对所述第一短文本集合进行预处理;基于预处理后的第一短文本集合,执行如下处理步骤:使用所述预处理后的第一短文本集合训练主题模型LDA,得到所述第一短文本集合中各短文本的主题概率分布;对所述主题概率分布进行聚类,确定所述第一短文本集合中各短文本的主题类别;所述方法还包括:获取新增的第二短文本集合,并对所述第二短文本集合进行所述预处理;检测预处理后的第二短文本集合中的新词数量是否超出预设阈值;若是,则将所述预处理后的第一短文本集合和所述预处理后的第二短文本集合共同作为预处理后的第一短文本集合,再次执行所述处理步骤;否则,使用训练后的LDA确定所述第二短文本集合中各短文本的主题类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510250477.X/,转载请声明来源钻瓜专利网。