[发明专利]网络文学目录型网页自动识别方法无效
申请号: | 201010245846.3 | 申请日: | 2010-08-05 |
公开(公告)号: | CN102346748A | 公开(公告)日: | 2012-02-08 |
发明(设计)人: | 陈运文;马飞涛;宋海涛 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 丁纪铁 |
地址: | 201203 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络文学 目录 网页 自动识别 方法 | ||
1.一种网络文学目录型网页自动识别方法,其特征在于,包括如下步骤:
步骤一、获取当前网页的数据体;
步骤二、在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串,以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中;
步骤三、去除所述字符串数组一包含有图像类超链接标记的数组元素,形成一字符串数组二;
步骤四、抽取出所述字符串数组二的各数组元素的超链接文本信息,以各所述超链接文本信息为数组元素形成一字符串数组三;
步骤五、判断所述字符串数组三中的各数组元素是否为一目录文本信息,并对是目录文件信息的数组元素进行计数,得到数值一;
步骤六、用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比值;
步骤七、当所述确认比值大于0.7、或者所述数值一大于15时,确定所述当前网页为一文学目录页。
2.如权利要求1所述网络文学目录型网页自动识别方法,其特征在于:所述数据体为html源文件,步骤二中所述超链接标记为<a>,所述包含有超链接地址的超链接标记是包含有“herf=”参数的所述超链接标记<a>;步骤二中在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串方法为:判断所述数据体中是否含有“<a herf=”标记;对包含所述“<a herf=”标记的部分进行字符串抽取,抽取的范围为从“<a”标记开始、到“</a>”标记结束的所有字符串。
3.如权利要求2所述网络文学目录型网页自动识别方法,其特征在于:步骤三中所述图像类超链接标记为“<img”标记。
4.如权利要求2所述网络文学目录型网页自动识别方法,其特征在于:步骤四中抽取出所述字符串数组二的各数组元素的超链接文本信息的方法为:首先生成一个栈;再对所述字符串数组二的数组元素进行从头部到尾部的字符扫描并对扫描到的当前字符进行如下判断:当所述当前字符为“<”字符时,将所述当前字符压栈;当所述当前字符为“>”字符时,且栈顶元素为“<”字符时,将“<”字符弹栈;当所述当前字符为非“<”字符和非“>”字符时,如果当前栈顶元素为“<”字符,则忽略所述当前字符,继续沿字符串往前遍历扫描;当所述当前字符为非“<”字符和非“>”字符时,如果当前栈顶元素不是“<”字符,则将当所述当前字符压栈;当对所述字符串数组二的数组元素进行如上扫描结束后,将所述栈中的文本弹出,形成所述字符串数组三的数组元素。
5.如权利要求2所述网络文学目录型网页自动识别方法,其特征在于:步骤五中判断所述字符串数组三中的各数组元素是否为一目录文本信息的方法为,判断所述字符串数组三的数组元素是否满足如下条件:所述字符串数组三的数组元素的第一个文字字符为“第”、且所述字符串数组三的数组元素的后续文字字符中含有“章”、或“节”、或“回”、或“话”;若满足上述条件,则所述字符串数组三的数组元素为一目录文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010245846.3/1.html,转载请声明来源钻瓜专利网。