[发明专利]基于网页文章的标题抽取方法及装置有效

申请号：	201810163176.7	申请日：	2018-02-26
公开（公告）号：	CN108268433B	公开（公告）日：	2019-06-11
发明（设计）人：	张为	申请（专利权）人：	杭州数梦工场科技有限公司
主分类号：	G06F17/22	分类号：	G06F17/22
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张润
地址：	310024 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于网页文章的标题抽取方法及装置，其中方法包括：获取网页文章对应的网页代码；根据渲染后的网页代码，构建DOM树；根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整；获取DOM树中正文区域前的叶子节点，并作为标题候选节点；根据标题候选节点中的文本内容特征，以及标题候选节点与正文区域之间的距离，计算标题候选节点的特征分数；将对应的特征分数最高的标题候选节点确定为标题节点，将其文本内容确定为网页文章的标题，从而能够结合正文区域所在位置，确定标题候选节点，结合标题候选节点中的文本内容特征，确定标题，避免了包装器的创建，实现了全自动化抽取，从而降低了成本，提高了抽取效率。
搜索关键词：	标题候选网页文章网页代码文本内容正文区域抽取特征分数渲染标题节点节点确定全自动化实际属性叶子节点包装器构建创建
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于网页文章的标题抽取方法，其特征在于，包括：获取网页文章对应的网页代码，对所述网页代码进行渲染，得到渲染后的网页代码；根据所述渲染后的网页代码，构建文档对象模型DOM树；获取所述DOM树的各个节点中元素的实际属性值，根据元素的实际属性值对所述渲染后的网页代码进行调整；获取所述DOM树中的正文区域；遍历所述DOM树，获取所述DOM树中正文区域前的叶子节点，将所述叶子节点作为标题候选节点；根据所述标题候选节点中的文本内容特征，以及所述标题候选节点与所述正文区域之间的距离，计算所述标题候选节点的特征分数；将对应的特征分数最高的标题候选节点确定为标题节点，将所述标题节点中的文本内容确定为所述网页文章的标题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司，未经杭州数梦工场科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810163176.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于网页文章的标题抽取方法及装置有效

专利文献下载