[发明专利]基于网页文章的标题抽取方法及装置有效

申请号：	201810163176.7	申请日：	2018-02-26
公开（公告）号：	CN108268433B	公开（公告）日：	2019-06-11
发明（设计）人：	张为	申请（专利权）人：	杭州数梦工场科技有限公司
主分类号：	G06F17/22	分类号：	G06F17/22
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张润
地址：	310024 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标题候选网页文章网页代码文本内容正文区域抽取特征分数渲染标题节点节点确定全自动化实际属性叶子节点包装器构建创建
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于网页文章的标题抽取方法及装置，其中方法包括：获取网页文章对应的网页代码；根据渲染后的网页代码，构建DOM树；根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整；获取DOM树中正文区域前的叶子节点，并作为标题候选节点；根据标题候选节点中的文本内容特征，以及标题候选节点与正文区域之间的距离，计算标题候选节点的特征分数；将对应的特征分数最高的标题候选节点确定为标题节点，将其文本内容确定为网页文章的标题，从而能够结合正文区域所在位置，确定标题候选节点，结合标题候选节点中的文本内容特征，确定标题，避免了包装器的创建，实现了全自动化抽取，从而降低了成本，提高了抽取效率。

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于网页文章的标题抽取方法及装置。

背景技术

目前的网页数据抽取方法主要有两种，第一种需要构建专门的“包装器”程序来识别数据并将其转化为适合的格式，如XML、关联式表格等，但该方法要求用户具有计算机和编程的背景知识，且数据源网站格式改变时，需要对包装器进行修改。第二种提供友好的人机界面技术，通过人机界面技术使得用户可以在页面上点击从而快速创建包装器，降低了用户使用门槛，但这种方法最大的问题是灵活性很差，即当数据源网站格式改变时，需要重新创建包装器，成本高，维护工作量非常大。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于网页文章的标题抽取方法，用于解决现有技术中的抽取方法成本高，且抽取效率低的问题。

本发明的第二个目的在于提出一种基于网页文章的标题抽取装置。

本发明的第三个目的在于提出另一种基于网页文章的标题抽取装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于网页文章的标题抽取方法，包括：

获取网页文章对应的网页代码，对所述网页代码进行渲染，得到渲染后的网页代码；

根据所述渲染后的网页代码，构建文档对象模型DOM树；获取所述DOM树的各个节点中元素的实际属性值，根据元素的实际属性值对所述渲染后的网页代码进行调整；

获取所述DOM树中的正文区域；

遍历所述DOM树，获取所述DOM树中正文区域前的叶子节点，将所述叶子节点作为标题候选节点；