[发明专利]基于语义扩展的海量短文本信息过滤方法有效

申请号：	201310376205.5	申请日：	2013-08-26
公开（公告）号：	CN103455581A	公开（公告）日：	2013-12-18
发明（设计）人：	刘振岩;王伟平;孟丹;王勇;康颖	申请（专利权）人：	北京理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京理工大学专利中心 11120	代理人：	高燕燕
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义扩展海量文本信息过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于语义扩展的海量短文本信息过滤方法，其特征在于，具体包括如下步骤：

步骤一、建立初始的训练样本集，对于训练样本集的每个样本基于上下文信息进行扩展，形成新的训练样本集；

步骤二、对扩展的训练样本集进行文本预处理，使用特征选择算法确定特征词，将每个文本变换为特征词的集合；

步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA（Latent Dirichlet Allocation）扩展模型，建立主题特征词典；

步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示；

步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM（Support Vector Machines）过滤器；

步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理，转化为特征词集合，再将其在隐主题空间上进行文本表示，由步骤五所述的过滤器对其进行过滤；

步骤七、定期采集新样本，在已有的隐主题空间上更新主题的词项概率分布，对新样本进行文本表示，使用增量SVM算法，重新建立SVM过滤器。

2.如权利要求1所述的一种基于语义扩展的海量短文本信息过滤方法，其特征在于，上述方法的步骤二中文本预处理包括中文分词，去除停用词，特征词的规范化。

3.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法，其特征在于，上述方法的步骤二中特征选择算法选择使用文档频率、或信息增益、或卡方方法。

4.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法，其特征在于，上述方法的步骤三中LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展，并基于支持迭代计算的BSP（Bulk Synchronous Programming）并行编程模型来实现该LDA扩展模型的并行学习算法。

5.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法，其特征在于，上述方法的步骤七中对于新样本，采用增量Gibbs抽样算法，只对每个主题内词项概率分布进行更新，而隐主题空间本身不再改变，从而能保证新旧样本同处于一个特征空间进行SVM增量学习。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310376205.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种显示商品信息的方法、装置及终端
下一篇：一种基于思维地图的网络学习资源推荐方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于语义扩展的海量短文本信息过滤方法有效

专利文献下载