[发明专利]基于语义扩展的海量短文本信息过滤方法有效
申请号: | 201310376205.5 | 申请日: | 2013-08-26 |
公开(公告)号: | CN103455581A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 刘振岩;王伟平;孟丹;王勇;康颖 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高燕燕 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于语义扩展的海量短文本信息过滤方法,能解决短文本的特征稀疏性问题。步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展;步骤二、对扩展的训练样本集进行文本预处理,步骤三、基于预处理后的训练样本集建立主题特征词典;步骤四、将训练样本集的每个文本在隐主题空间上进行文本表示;步骤五、构建SVM过滤器;步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由过滤器对其进行过滤;步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,重新建立SVM过滤器。 | ||
搜索关键词: | 基于 语义 扩展 海量 文本 信息 过滤 方法 | ||
【主权项】:
一种基于语义扩展的海量短文本信息过滤方法,其特征在于,具体包括如下步骤:步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展,形成新的训练样本集;步骤二、对扩展的训练样本集进行文本预处理,使用特征选择算法确定特征词,将每个文本变换为特征词的集合;步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(Latent Dirichlet Allocation)扩展模型,建立主题特征词典;步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示;步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(Support Vector Machines)过滤器;步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由步骤五所述的过滤器对其进行过滤;步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新建立SVM过滤器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310376205.5/,转载请声明来源钻瓜专利网。