[发明专利]基于文本分析的网页检测方法有效
申请号: | 201610649433.9 | 申请日: | 2016-08-10 |
公开(公告)号: | CN106294733B | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 张俤 | 申请(专利权)人: | 成都轻车快马网络科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35;G06F16/83;G06F16/93;G06F17/27 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 杨春 |
地址: | 610000 四川省成都市高新区天*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于文本分析的网页检测方法,该方法包括:基于爬取的网页数据源,定义特征提取策略;进行页面预处理,确定获取网页的内容,丢弃与提取信息无关的词条属性;根据提取策略,获得所需要的数据项并保存到XML文档中;将XML文档通过特征提取获得特征向量并聚类;将聚类后的文档按类簇存储到对应数据库中。本发明提出了一种基于文本分析的网页检测方法,针对大规模数据集,快速、高效地检查出相似数据,快速挖掘到有价值的信息,提升搜索引擎的用户体验。 | ||
搜索关键词: | 基于 文本 分析 网页 检测 方法 | ||
【主权项】:
1.一种基于文本分析的网页检测方法,其特征在于,包括:基于爬取的网页数据源,定义特征提取策略;进行页面预处理,确定获取网页的内容,丢弃与提取信息无关的词条属性;根据提取策略,获得所需要的数据项并保存到XML文档中;将XML文档通过特征提取获得特征向量并聚类;将聚类后的文档按类簇存储到对应数据库中;所述网页为带有摘要的网页,并且其中所述特征提取进一步包括:(1)、过滤掉网页文本首尾与特征抽取无关的信息,得到去噪处理后的网页文本;(2)、分别得到摘要和原文内容的中文分词结果;(3)、对摘要和原文内容的中文分词结果进行词性分类,完成分类后,对原文内容和摘要的词性分类结果进行谓语提取和实词识别;(4)、根据预设归并规则集对所述谓语提取后的网页文本的词性分类结果和所述网页文本的实词识别结果进行归并,得到原文的归并结果;对所述谓语提取后的摘要的词性分类结果和所述摘要的实词识别结果进行归并,得到摘要的归并结果;(5)、对网页文本的归并结果和摘要的归并结果进行单元归并,得到网页文本的信息单元归并结果和摘要的单元归并结果;(6)、对网页文本的单元归并结果进行聚类,根据特征规则集得到聚类之后网页文本的特征抽取结果;所述特征规则集由权值分配策略、网页文本的单元归并结果的语句切分规则、原子句切分规则、语态抽取规则、语气识别规则构成;所述聚类过程进一步包括:(6.1)对所输入的网页文本内容进行降维处理,获得网页文本中的每个特征词和词频的组对,记为<word,value>;(6.2)对所述组对按照字典顺序进行排序,并根据所述排序建立索引;(6.3)将所述索引与所述特征词建立对应关系,即将每个特征词和其频率的组对<word,value>转换为每个索引与其词频的对应关系,记为向量<index,value>;(6.4)定义循环次数t、最大循环次数tmax;并初始化t=0;在t轮从索引向量集<index,value>中获取n个索引向量,记为N(t)={N1(t),N2(t),…,Nn(t)},Ni(t)表示t轮的第i个索引向量<indexi(t),valuei(t)>;计算t轮的第i个索引向量Ni(t)与第j个索引向量Nj(t)的正则化相似度Nsim(i,j)=Nj(t)·Ni(t);(6.5)将所述t轮的n个索引向量N(t)的权值记为WEN(t)={WEN1(t),WEN2(t),…,WENn(t)},WENi(t)表示t轮的第i个索引向量Ni(t)的权值;初始化WENi(t)=1;计算t轮的第i个索引向量与第j个索引向量的相似距离矩阵S(t)(i,j):S(t)(i,j)=(1+WENi(t)/WENj(t))/Nsim(i,j)(6.6)将t轮的S(t)(i,j)赋值给Affinity Propagation算法,对所述t轮的n个索引向量N(t)进行聚类,获得第t轮的mt个初步聚类中心,记为C(t)={C1(t),C2(t),…,Cmt(t)};将t增1;并判断t=tmax是否成立,若成立,则执行步骤2.11;否则从所述索引向量集<index,value>中获得t轮的n个索引向量N(t)={N1(t),N2(t),…,Nn(t)}(6.7)将t‑1轮的mt‑1个聚类中心C(t‑1)追加到所述t轮的n个索引向量N(t)中,从而获得n+mt‑1个索引向量,将更新的n+mt‑1个索引向量N(t)’赋值给所述t轮的索引向量N(t),并返回步骤6.5顺序执行;从而获得t轮的mt个最终聚类中心C(t);(6.8)获得每一轮的聚类中心,完成所述聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都轻车快马网络科技有限公司,未经成都轻车快马网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610649433.9/,转载请声明来源钻瓜专利网。