[发明专利]基于中文标点符号的三重网页文本内容识别及过滤方法有效

申请号：	200710011057.1	申请日：	2007-04-18
公开（公告）号：	CN101035128A	公开（公告）日：	2007-09-12
发明（设计）人：	宋明秋;吴新涛	申请（专利权）人：	大连理工大学
主分类号：	H04L29/06	分类号：	H04L29/06;G06F17/30;G06F17/27;H04L12/24
代理公司：	大连理工大学专利中心	代理人：	侯明远;李宝元
地址：	116024辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题，提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网页文本内容过滤方法。采用基于黑白名单的URL地址过滤方法；采用中文标点符号的统计特征来有效地去除导航信息、相关链接信息、广告链接信息、版权信息等网页内容噪声信息，提取文本内容；采用向量空间模型进行文本知识表示，通过计算文本向量与不良信息模版中特征向量间的夹角余弦，与设定的阈值相比较，确定文本所属类别。该发明可广泛地应用于网络不良信息的过滤及网页个性化信息服务领域。
搜索关键词：	基于中文标点符号三重网页文本内容识别过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于中文标点符号的三重网页文本内容识别及过滤方法，提供了一种基于URL地址、关键字和内容相结合的三重网页信息过滤系统体系结构，其特征在于，采用Winsock 2 SPI函数直接在应用层截获HTTP数据包；采用基于中文标点符号统计值的通用中文网页噪声去除及正文获取方法；建立中文网页不良信息文本分类语料库，作为网页文本内容的样本训练模版。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200710011057.1/，转载请声明来源钻瓜专利网。

上一篇：一种六棱柱形铅笔芯及其专用自动铅笔和使用方法
下一篇：一组盐酸依匹斯汀制剂及其制备方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于中文标点符号的三重网页文本内容识别及过滤方法有效

专利文献下载