[发明专利]一种基于文本-标签密度的网页核心内容提取方法有效

申请号：	201610390441.6	申请日：	2016-06-06
公开（公告）号：	CN106055667B	公开（公告）日：	2019-06-04
发明（设计）人：	蒋东辰;闫艺鑫	申请（专利权）人：	北京林业大学
主分类号：	G06F16/958	分类号：	G06F16/958
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	成金玉;卢纪
地址：	100083 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于文本‑标签密度的网页核心内容提取方法，其包括：网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素，并删除原始网页文本中与网页核心内容无关的标签，从而得到待处理文本；网页核心内容范围预估阶段，确定网页核心内容的大致范围；核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置；删除剩余标签阶段取出核心内容部分，并删除多余标签，获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构，也不限定网页的主题和内容，处理过程具有线性复杂度，能够适用于各种网页核心内容提取、网页去噪等技术应用。
搜索关键词：	一种基于文本标签密度网页核心内容提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于文本‑标签密度的网页核心内容提取方法，其特征在于：包括网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段；其中：网页源代码预处理阶段，从原始网页文本中提取出核心要素，核心要素包括标题、关键词和描述，并删除原始网页文本中与核心内容无关的标签内容，从而得到剩余的网页文本，称该剩余文本为待处理文本；网页核心内容范围预估阶段，在待处理文本中，确定网页核心内容的大致范围，即分别获得核心内容预估区间的开始位置approxStart和结束位置approxEnd；核心内容边界确定阶段，基于核心内容预估区间的开始位置approxStart和结束位置approxEnd，确定网页核心内容大致的中心位置，然后再在该中心位置的前后，基于文本‑标签密度函数，分别确定网页文本正文核心内容精确的起止位置，精确起止位置包括核心文本的前边界和后边界；删除剩余标签阶段，基于核心内容的前边界和后边界取出网页核心内容区域的文本，并进一步删除该区域中的多余标签，最终获得便于分析处理的网页核心内容；所述核心内容边界确定阶段的具体步骤如下：(1)根据确定的核心内容预估区间的开始位置approxStart和结束位置approxEnd，计算核心内容的预估中心M＝(approxStart+approxEnd)/2；(2)对待处理文本从0到M中的任何一个位置x，根据下文本‑标签密度公式计算区间[0,M]以x为分界点的文本‑标签密度：其中，i表示待处理文本字符的位置，取值范围为0到M；b[i]表示待处理文本中第i个位置的字符是否属于某个网页标签：如果第i个位置的字符属于某段网页内容，则记b[k]＝0；否则，第i个位置的字符属于某个网页标签，记b[i]＝1；从这些结果中选择一个使得该数值最大的位置x，将其作为核心内容的前边界；(3)对待处理文本从M到length中的任何一个位置y，根据下文本‑标签密度公式计算区间[M,length]以y为分界点的文本‑标签密度：length表示待处理文本的字符长度，从这些结果中选择一个使得该数值最大的位置y，将其作为核心内容的后边界，返回边界x和y，即该网页核心内容的精确边界。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京林业大学，未经北京林业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610390441.6/，转载请声明来源钻瓜专利网。

上一篇：基于RPA技术检测向日葵茎溃疡病菌的方法、RPA引物及试剂盒
下一篇：立装可转动式内窥镜装置及其调节方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本-标签密度的网页核心内容提取方法有效

专利文献下载