[发明专利]基于中文标点符号的三重网页文本内容识别及过滤方法有效
申请号: | 200710011057.1 | 申请日: | 2007-04-18 |
公开(公告)号: | CN101035128A | 公开(公告)日: | 2007-09-12 |
发明(设计)人: | 宋明秋;吴新涛 | 申请(专利权)人: | 大连理工大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30;G06F17/27;H04L12/24 |
代理公司: | 大连理工大学专利中心 | 代理人: | 侯明远;李宝元 |
地址: | 116024辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题,提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网页文本内容过滤方法。采用基于黑白名单的URL地址过滤方法;采用中文标点符号的统计特征来有效地去除导航信息、相关链接信息、广告链接信息、版权信息等网页内容噪声信息,提取文本内容;采用向量空间模型进行文本知识表示,通过计算文本向量与不良信息模版中特征向量间的夹角余弦,与设定的阈值相比较,确定文本所属类别。该发明可广泛地应用于网络不良信息的过滤及网页个性化信息服务领域。 | ||
搜索关键词: | 基于 中文 标点符号 三重 网页 文本 内容 识别 过滤 方法 | ||
【主权项】:
1.一种基于中文标点符号的三重网页文本内容识别及过滤方法,提供了一种基于URL地址、关键字和内容相结合的三重网页信息过滤系统体系结构,其特征在于,采用Winsock 2 SPI函数直接在应用层截获HTTP数据包;采用基于中文标点符号统计值的通用中文网页噪声去除及正文获取方法;建立中文网页不良信息文本分类语料库,作为网页文本内容的样本训练模版。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710011057.1/,转载请声明来源钻瓜专利网。