[发明专利]一种基于文本-标签密度的网页核心内容提取方法有效
申请号: | 201610390441.6 | 申请日: | 2016-06-06 |
公开(公告)号: | CN106055667B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 蒋东辰;闫艺鑫 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉;卢纪 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于文本‑标签密度的网页核心内容提取方法,其包括:网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素,并删除原始网页文本中与网页核心内容无关的标签,从而得到待处理文本;网页核心内容范围预估阶段,确定网页核心内容的大致范围;核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置;删除剩余标签阶段取出核心内容部分,并删除多余标签,获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构,也不限定网页的主题和内容,处理过程具有线性复杂度,能够适用于各种网页核心内容提取、网页去噪等技术应用。 | ||
搜索关键词: | 一种 基于 文本 标签 密度 网页 核心内容 提取 方法 | ||
【主权项】:
1.一种基于文本‑标签密度的网页核心内容提取方法,其特征在于:包括网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段;其中:网页源代码预处理阶段,从原始网页文本中提取出核心要素,核心要素包括标题、关键词和描述,并删除原始网页文本中与核心内容无关的标签内容,从而得到剩余的网页文本,称该剩余文本为待处理文本;网页核心内容范围预估阶段,在待处理文本中,确定网页核心内容的大致范围,即分别获得核心内容预估区间的开始位置approxStart和结束位置approxEnd;核心内容边界确定阶段,基于核心内容预估区间的开始位置approxStart和结束位置approxEnd,确定网页核心内容大致的中心位置,然后再在该中心位置的前后,基于文本‑标签密度函数,分别确定网页文本正文核心内容精确的起止位置,精确起止位置包括核心文本的前边界和后边界;删除剩余标签阶段,基于核心内容的前边界和后边界取出网页核心内容区域的文本,并进一步删除该区域中的多余标签,最终获得便于分析处理的网页核心内容;所述核心内容边界确定阶段的具体步骤如下:(1)根据确定的核心内容预估区间的开始位置approxStart和结束位置approxEnd,计算核心内容的预估中心M=(approxStart+approxEnd)/2;(2)对待处理文本从0到M中的任何一个位置x,根据下文本‑标签密度公式计算区间[0,M]以x为分界点的文本‑标签密度:其中,i表示待处理文本字符的位置,取值范围为0到M;b[i]表示待处理文本中第i个位置的字符是否属于某个网页标签:如果第i个位置的字符属于某段网页内容,则记b[k]=0;否则,第i个位置的字符属于某个网页标签,记b[i]=1;从这些结果中选择一个使得该数值最大的位置x,将其作为核心内容的前边界;(3)对待处理文本从M到length中的任何一个位置y,根据下文本‑标签密度公式计算区间[M,length]以y为分界点的文本‑标签密度:length表示待处理文本的字符长度,从这些结果中选择一个使得该数值最大的位置y,将其作为核心内容的后边界,返回边界x和y,即该网页核心内容的精确边界。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610390441.6/,转载请声明来源钻瓜专利网。