[发明专利]一种基于文本-标签密度的网页核心内容提取方法有效

专利信息
申请号: 201610390441.6 申请日: 2016-06-06
公开(公告)号: CN106055667B 公开(公告)日: 2019-06-04
发明(设计)人: 蒋东辰;闫艺鑫 申请(专利权)人: 北京林业大学
主分类号: G06F16/958 分类号: G06F16/958
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 成金玉;卢纪
地址: 100083 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于文本‑标签密度的网页核心内容提取方法,其包括:网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素,并删除原始网页文本中与网页核心内容无关的标签,从而得到待处理文本;网页核心内容范围预估阶段,确定网页核心内容的大致范围;核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置;删除剩余标签阶段取出核心内容部分,并删除多余标签,获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构,也不限定网页的主题和内容,处理过程具有线性复杂度,能够适用于各种网页核心内容提取、网页去噪等技术应用。
搜索关键词: 一种 基于 文本 标签 密度 网页 核心内容 提取 方法
【主权项】:
1.一种基于文本‑标签密度的网页核心内容提取方法,其特征在于:包括网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段;其中:网页源代码预处理阶段,从原始网页文本中提取出核心要素,核心要素包括标题、关键词和描述,并删除原始网页文本中与核心内容无关的标签内容,从而得到剩余的网页文本,称该剩余文本为待处理文本;网页核心内容范围预估阶段,在待处理文本中,确定网页核心内容的大致范围,即分别获得核心内容预估区间的开始位置approxStart和结束位置approxEnd;核心内容边界确定阶段,基于核心内容预估区间的开始位置approxStart和结束位置approxEnd,确定网页核心内容大致的中心位置,然后再在该中心位置的前后,基于文本‑标签密度函数,分别确定网页文本正文核心内容精确的起止位置,精确起止位置包括核心文本的前边界和后边界;删除剩余标签阶段,基于核心内容的前边界和后边界取出网页核心内容区域的文本,并进一步删除该区域中的多余标签,最终获得便于分析处理的网页核心内容;所述核心内容边界确定阶段的具体步骤如下:(1)根据确定的核心内容预估区间的开始位置approxStart和结束位置approxEnd,计算核心内容的预估中心M=(approxStart+approxEnd)/2;(2)对待处理文本从0到M中的任何一个位置x,根据下文本‑标签密度公式计算区间[0,M]以x为分界点的文本‑标签密度:其中,i表示待处理文本字符的位置,取值范围为0到M;b[i]表示待处理文本中第i个位置的字符是否属于某个网页标签:如果第i个位置的字符属于某段网页内容,则记b[k]=0;否则,第i个位置的字符属于某个网页标签,记b[i]=1;从这些结果中选择一个使得该数值最大的位置x,将其作为核心内容的前边界;(3)对待处理文本从M到length中的任何一个位置y,根据下文本‑标签密度公式计算区间[M,length]以y为分界点的文本‑标签密度:length表示待处理文本的字符长度,从这些结果中选择一个使得该数值最大的位置y,将其作为核心内容的后边界,返回边界x和y,即该网页核心内容的精确边界。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610390441.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top