[发明专利]短文本处理方法及装置有效
申请号: | 201510250477.X | 申请日: | 2015-05-15 |
公开(公告)号: | CN104850617B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 阮星华;张文 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 | ||
技术领域
本申请涉及计算机技术领域,具体涉及文本处理技术领域,尤其涉及短文本处理方法及装置。
背景技术
随着互联网技术的飞速发展,人们越来越多的通过各种网络平台发表自己的观点或意见。例如,用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评,还可以通过网络购物平台对购买或使用过的商品发表商品评价,也可以通过意见反馈渠道向提供服务或应用的运营商提出意见建议,还可以通过微博等社交平台发表自己的任意观点等。由于这些评论、评价或意见大多只是进行片断性的描述说明,其所包括的文字内容较少,因此均可以被看作是短文本数据。
面对互联网迅猛发展所产生的海量短文本数据,如何准确地对短文本进行划分并从中提取出有实用价值的信息,已经成为互联网行业普遍关注和研究的课题。在现有技术中,可以通过TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文档频率)方法对短文本数据进行分析。但是,由于这种方法完全依赖词在文档中的出现频次进行计算,而短文本的内容一般来说都比较简短,向量矩阵稀疏,因此传统的TF-IDF方法应用效果并不好,其对短文本进行区分的准确性较低。
发明内容
鉴于现有技术中的上述缺陷或不足,期望能够提供一种短文本分类准确的方案。为了实现上述一个或多个目的,本申请提供了短文本处理方法及装置。
第一方面,本申请提供了一种短文本处理方法,包括:获取第一短文本集合,并对所述第一短文本集合进行预处理;基于预处理后的第一短文本集合,执行如下处理步骤:使用所述预处理后的第一短文本集合训练主题模型LDA,得到所述第一短文本集合中各短文本的主题概率分布;对所述主题概率分布进行聚类,确定所述第一短文本集合中各短文本的主题类别。
第二方面,本申请提供了一种短文本处理装置,包括:第一获取模块,用于获取第一短文本集合,并对所述第一短文本集合进行预处理;处理模块,用于基于预处理后的第一短文本集合,驱动以下单元执行如下处理步骤:训练单元,用于使用所述预处理后的第一短文本集合训练主题模型LDA,得到所述第一短文本集合中各短文本的主题概率分布;聚类单元,用于对所述主题概率分布进行聚类,确定所述第一短文本集合中各短文本的主题类别。
本申请提供的短文本处理方法及装置,首先可以对获取的第一短文本集合进行预处理,然后利用处理后的数据进行主题模型LDA训练,以得到集合中各短文本的主题概率分布,最后对主题概率分布进行聚类,就可以确定出各短文本的主题类别。通过先进行主题模型训练得到主题概率的分布情况,再进一步对主题概率分布聚类,可以得到用于区分短文本类型的主题类别,从而可以实现对海量短文本数据的快速、准确分类。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请短文本处理方法的一个实施例的流程图;
图2是本申请短文本处理方法的另一个实施例的流程图;
图3是本申请短文本处理装置的一个实施例的功能模块构架示意图;
图4是本申请短文本处理装置的另一个实施例的功能模块构架示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了本申请短文本处理方法的一个实施例的流程100。本实施例主要以该方法应用于短文本应用平台的服务器中来举例说明,本实施例的短文本处理方法,包括以下步骤:
如图1所示,在步骤101中,获取第一短文本集合,并对第一短文本集合进行预处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510250477.X/2.html,转载请声明来源钻瓜专利网。