[发明专利]基于语义扩展的海量短文本信息过滤方法有效
申请号: | 201310376205.5 | 申请日: | 2013-08-26 |
公开(公告)号: | CN103455581A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 刘振岩;王伟平;孟丹;王勇;康颖 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高燕燕 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 扩展 海量 文本 信息 过滤 方法 | ||
1.一种基于语义扩展的海量短文本信息过滤方法,其特征在于,具体包括如下步骤:
步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展,形成新的训练样本集;
步骤二、对扩展的训练样本集进行文本预处理,使用特征选择算法确定特征词,将每个文本变换为特征词的集合;
步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(Latent Dirichlet Allocation)扩展模型,建立主题特征词典;
步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示;
步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(Support Vector Machines)过滤器;
步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由步骤五所述的过滤器对其进行过滤;
步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新建立SVM过滤器。
2.如权利要求1所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤二中文本预处理包括中文分词,去除停用词,特征词的规范化。
3.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤二中特征选择算法选择使用文档频率、或信息增益、或卡方方法。
4.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤三中LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展,并基于支持迭代计算的BSP(Bulk Synchronous Programming)并行编程模型来实现该LDA扩展模型的并行学习算法。
5.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤七中对于新样本,采用增量Gibbs抽样算法,只对每个主题内词项概率分布进行更新,而隐主题空间本身不再改变,从而能保证新旧样本同处于一个特征空间进行SVM增量学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310376205.5/1.html,转载请声明来源钻瓜专利网。