[发明专利]一种基于文本内容的网页信息过滤方法在审

申请号：	201610499618.6	申请日：	2016-06-29
公开（公告）号：	CN106126690A	公开（公告）日：	2016-11-16
发明（设计）人：	董雄飞	申请（专利权）人：	合肥民众亿兴软件开发有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	230000 安徽省合肥***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于文本内容的网页信息过滤方法，采用X²统计和改进的DBSCAN聚类算法，对文档特征进行2次选择，提高了各特征之间的相对独立性，提出采用构建词索引矩阵和词共现矩阵的方法。最后提出了基于特征簇的向量空间模型，在有效提高特征独立性的同时，减低了特征维数，为下一步分类器计算提供了方便。对于最终各特征簇的权值计算，采TF‑IDF算法，分3步走，把文档表示成特征簇向量空间模型。
搜索关键词：	一种基于文本内容网页信息过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于文本内容的网页信息过滤方法，其特征在于，包括如下步骤：(1)文本预处理首先把网页中的文字信息提取出来，接着进行去除噪音、词干还原和标签加权处理，生成带有标记的词序流；(2)特征选择采用基于密度聚类算(DBSCAN)法对预处理文本的特征进行选取，接着构建文本特征，把一些经常同时出现的词进行统计，通过聚类生成簇；(3)特征加权采用基于特征簇的TF‑IDF算法求聚类生成簇的权值；(4)分类器运算利用统计学和数学的方法，首先对分类器进行训练，计算各向量的距离，找到分类的映射法则，然后对待测文本进行分类过滤，最终把网页信息区分为规定的两类，得到结果；(5)自学习更新引入自学习更新模块，把词库中没有的词记录下来，对结果进行更新检查，得到输出结果；(6)性能评估对输出结果计算其各性能指标，通过结果对设定参数进行微调，反复实验不同待测样本的过滤效果，找到相对合适的参数设定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥民众亿兴软件开发有限公司，未经合肥民众亿兴软件开发有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610499618.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本内容的网页信息过滤方法在审

专利文献下载