[发明专利]一种双维度分类提取网页链接的方法有效
申请号: | 201710170129.0 | 申请日: | 2017-03-21 |
公开(公告)号: | CN107066548B | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 袁巍;李珩;李佳桓 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/953;G06F16/35;G06K9/62 |
代理公司: | 武汉荆楚联合知识产权代理有限公司 42215 | 代理人: | 周洋 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 维度 分类 提取 网页 链接 方法 | ||
1.一种双维度分类提取网页链接的方法,其特征在于包括以下步骤:
a、首先构建一个对网页中板块标题进行分类的贝叶斯分类器以及一个针对网页中链接标题进行匹配的卷积神经网络;
b、为贝叶斯分类器和卷积神经网络分别获取并标记一定数量的样本形成训练集和测试集,对于贝叶斯分类器,其训练集和测试集中的样本为板块的标题;对于卷积神经网络,其训练集和测试集中的样本为链接的标题,样本分为正负两类,正样本与目标主题相关,负样本与目标主题无关;
c、利用训练样本对贝叶斯分类器和卷积神经网络分别进行训练,直至在测试集上取得较好的性能;
d、利用网络爬虫抓取网页,保存至本地,并利用工具从网页中提取出链接;
e、判断所提取的候选链接之间的关系,将拥有相同父标签的链接信息聚为同一类,每一类对应于一个板块,同时提取出每个板块的标题;
f、使用贝叶斯分类器对网页中每一个板块的标题进行分类,找出与目标主题相关的板块;
g、使用卷积神经网络对与目标主题相关的板块中包含的链接信息进行分类,判断是否与目标主题相关,获得了已经训练好的卷积神经网络后,就可以对主题相关板块中的链接进行匹配,具体的步骤如下:首先将待匹配的链接语句,用ansj_seg项目进行分词,细化句子的粒度,然后用word2vec获得待匹配的链接语句中的每个词的词向量,最后用已经训练好的卷积神经网络对句子进行扫描,即用一个滑动窗口从左至右进行扫描,每个窗口内有多个词,每个词由一个向量表示,最后神经网络即可输出该链接是否匹配;
h、逐一分析每个与主题相关的板块,如果卷积神经网络所识别出的主题相关链接数量占相应板块中所有链接数量的80%以上,认为匹配成功,将该板块的所有链接输出;否则,匹配失败,不输出该板块的链接。
2.根据权利要求1所述的一种双维度分类提取网页链接的方法,其特征在于:所述a步骤中贝叶斯分类器的联合概率公式为:P( C, X ) = P( C | X ) * P( X ) = P( X | C )* P( C ),所得到的贝叶斯公式:P(C|X)=P(X|C)*P(C)/P(X),其中C =“该板块与主题相关”, X =“训练集中的信息含有标题文本的概率”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710170129.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于LIRE的三维模型检索方法
- 下一篇:一种搜索匹配方法、装置及系统