[发明专利]一种基于标题的网页有效元数据内容提取方法有效
申请号: | 201710349934.X | 申请日: | 2017-05-17 |
公开(公告)号: | CN107145591B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 陈桂清 | 申请(专利权)人: | 广州瞬速信息科技有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/951 |
代理公司: | 广州越华专利代理事务所(普通合伙) 44523 | 代理人: | 陈岑 |
地址: | 510000 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标题 网页 有效 数据 内容 提取 方法 | ||
1.一种基于标题的网页有效元数据内容提取方法,其特征在于:所述的提取方法具体步骤如下:
(1)通过爬虫系统读取每个网站的链接、链接标题和网页内容后;
(2)将网页内容送入内容识别算法,识别算法先判断输入的内容中是否有链接标题,没有链接标题的自动提取网页中的title到/title中的内容作为信息标题;
(3)剔除网页源代码中的script、iframe、noscript、textarea、select以及注释信息;
(4)将网页的HTML源代码转换成树状结构,在转换中同时记录每个树结点的中的句子数量、链接数量以作为识别的辅助信息;
(5)逐个读取HTML树结点的元素中的文本内容,判断该文本内容是否是句子或段落,判断是否是句子或段落的依据是该文本内容中的逗号数量是否超过2个,而且含有中英文常用的句子结束符号,如果不是句子的,判断文本内容的长度是否大于3个汉字或6个字符,小于3个汉字的认为是噪声信息不作后续的处理,继续读取下一个HTML树结点;大于3个汉字的,通过公式计算该文本内容与输入的标题的相似度;
(6)当发现文本内容与标题的相似度超过20%时,先记录当前文本内容的位置,继续扫描其它的HTML树结点,当发现剩余文本相似度超过原先搜索到的文本的相似度时,即替换原来的结点信息,逐步替换直到找到首个句子或段落出现时即结束标题信息的搜索;
(7)当发现标题搜索到第一个句子或段落信息后,求出标题与首个句子的共同的首个父结点,并以此结点作为搜索起始通过深度扫描判断每个结点的句子数量是否发生变化,当数量的变化不超过1/2时将继续往下搜索,直到搜索出包含有最多句子和段落的HTML元素结点;至此,即锁定网页的正文主体内容,通过HTML树结点上的标签信息获得文中的图片信息,通过table标签获得文中的表格信息,通过a标签与href属性判断是否是文中的文档信息;
(8)除了识别正文与正文中的元数据外,还需要抽取正文相关的作者、来源、发表时间信息,这个通过对正文标题到首个句子或段落间的文本信息进行扫描,并通过正则表达式来判断是否是作者信息、来源信息或时间信息属性;即将网页内容识别出相关的属性元数据信息。
2.根据权利要求1所述的一种基于标题的网页有效元数据内容提取方法,其特征在于:步骤(5)中相似度计算公式为:(A∩B/A∪B)*100=相似度,即A为链接标题中的所有字符,B为当前文本的所有字符,A与B中共同出现的字符数量除与A与B中所有不重复的单词数量乘于100即为两个文本的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州瞬速信息科技有限公司,未经广州瞬速信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710349934.X/1.html,转载请声明来源钻瓜专利网。