[发明专利]一种移动互联网网页或媒体平台文章内容的准确提取方法有效
申请号: | 201610608825.0 | 申请日: | 2016-07-28 |
公开(公告)号: | CN106227858B | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 汪子涵;陈新;丛军伟;汤怀;张伟峰;杜义明 | 申请(专利权)人: | 北京橘子文化传媒有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 孟阿妮 |
地址: | 100123 北京市朝阳区高碑店*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种移动互联网网页或媒体平台文章内容的准确提取方法,步骤分为获取同一移动端网站或媒体平台w下的threshold1个网页文本内容,标记获取的网页为ai;将网页ai内容按照html标准进行 与 之间文字段落、标签中图片链接、 |
||
搜索关键词: | 一种 移动 互联网 网页 媒体 平台 文章内容 准确 提取 方法 | ||
【主权项】:
1.一种移动互联网网页或媒体平台文章内容的准确提取方法,其特征在于,该方法的具体步骤如下:一、获取同一移动端网站或媒体平台w下的threshold1个网页文本内容,使用已有的普适网络爬虫技术获取某一网站中网页的全部内容,针对一个网站获取5<=threshold1<=50个网页内容,标记获取的网页为ai;其中,1<=i<=threshold1;i为平台w中网页的编号;所述threshold1为针对平台w下的最少网页数量;二、提取网页内容中的文字段落、图片、视频资源链接,然后将获取到的threshold1个网页内容,针对其中每一网页ai中的内容进行如下操作:将网页ai内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取,每一种标签中的内容为一个段落;将提取的段落按其在网页中的位置顺序标记为aij,1<=j<=ain;其中ain代表针对网页ai提取到的段落数量;三、针对threshold1个网页内容的所有段落信息中的每一个段落aij,1<=i<=threshold1,1<=j<=ain;计算得到其广告置信度aijScore=sum(aijSimilarK)/threshold1;其中aijSimilarK代表aij针对网页ak的相似度,1<=k<=threshold1;四、判断段落aij是否为广告段落遍历threshold1个网页的所有段落aij,比较其广告置信度aijScore与threshold2/threshold1,如果aijScore大于等于threshold2/threshold1,则是重复出现在该网页中的内容,判定为广告,进行标记为ADij;如果aijScore小于threshold2/threshold1,则是一个正文段落将不进行标记;最后得到针对网站w的广告段落合集SetADw;所述threshold1代表步骤一中选取的平台w下的网页数量,threshold2代表判定广告段落的最小比例阈值;所述threshold2的取值范围在2~threshold1之间;通过一~四步骤,能够自动计算出针对移动端网站或媒体平台w的广告段落信息;五、针对移动端网站或媒体平台w的其他网页b,提取其中内容步骤如下:A:将网页b内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取,每一种标签中的内容为一个段落,然后将提取的段落按其在网页中的位置顺序标记为bj',1<=j'<=bn;其中bn代表针对网页b提取到的段落数量;B:遍历网页b的所有段落bj',1<=j'<=bn;遍历步骤四得出网站w的广告段落集合SetADw;如果bj'∈SetADw,则bj'是广告,不应当被提取;如果则bj'是有效的文章段落,应当被提取,标记为cj”;C:组合所有被提取出的文章段落cj”,按照其原有顺序排列,最终结果则显示为网页文章内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京橘子文化传媒有限公司,未经北京橘子文化传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610608825.0/,转载请声明来源钻瓜专利网。
- 上一篇:数据推送和加载方法和装置
- 下一篇:从GPS数据中识别交通工具的方法