[发明专利]一种文本提取方法及装置有效
申请号: | 201410026939.5 | 申请日: | 2014-01-21 |
公开(公告)号: | CN103810251B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 卜湛;伍之昂;曹杰;李秀怡;刘英卓 | 申请(专利权)人: | 南京财经大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京亿腾知识产权代理事务所11309 | 代理人: | 陈霁 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 提取 方法 装置 | ||
技术领域
本发明涉及互联网领域,具体涉及到一种在超文本传输协议源代码中进行文本提取的方法及装置。
背景技术
随着计算机与互联网技术的快速发展,越来越多的用户选择从互联网中获取信息,互联网上的丰富资源以及网络传输的便捷性,使得信息的采集和传播都大道理空前的水平。在各种信息获取方式中,网络搜索是较为常见的一种,各种搜索引擎目前已经成为用户上网不可少的辅助工具之一。
互联网上的信息大多以HTML、XHTML以及XML的网页为载体,但是Web页面总是包含一些用户并不是很关心的内容或者对用户需要搜索的内容无关的内容,例如一些广告链接、不相关的图片以及大量的导航链接,这些信息通常是围绕在主题信息周围。这些信息很难被计算机自动识别,大大增加了搜索引擎的索引文件的大小,用户很难找到所需的信息,降低了搜索的准确度和用户的体验,也很难实现智能网页内容抽取、网页自动分类、用户使用兴趣挖掘。
在搜索引擎领域,Web正文提取技术是近年来的研究热点,该技术将互联网中半结构化的HTML页面中隐藏的正文信息抽取出来,然后将其转化为结构化、语义更为清晰的信息呈现给用户。通常地,从网页的正文提取最好最准确的方式是通过模板提取,该技术基于特定类型的网页,归纳总结某种提取规则,创建包装器(wrapper),制作模板是一个繁琐的过程。由于,因为不同的网站,具有不同的Web页面的排版模式,这种情况下,依靠人工制作模板,难以满足需求。
因此,现有技术很难准确、高效的对HTML文件结构进行分析,提取与主题内容相关的元素。
发明内容
本发明的目的是是提供一种文本提取方法,以实现对HTML文件结构进行分析,提取与主题内容相关的元素的高效准确提取。
为实现上述目的,本发明提供了一种文本提取方法,所述方法包括:
步骤一、预处理给定的网页的超文本传输协议html源码,以获取所述源码中的文本的字符串序列,所述字符串序列包含N个文本行;
步骤二、提取所述字符串序列中每个文本行的特征元素,所述特征元素包含M个属性;
步骤三、依据第一关联规则,确定所述字符串序列中的潜在正文行组成的潜在正文块,所示第一关联规则由所述特征元素中的所述M个属性确定。
依照本发明较佳实施例提供的文本提取方法,在所述步骤三之后,还包括:
步骤四、根据滑动窗口方法,对所述潜在正文快进行分割,获取次级潜在正文块。
依照本发明较佳实施例提供的文本提取方法,所述步骤四之后,还包括:
获取每个所述次级潜在正文块包含的信息量;
根据所述次级潜在正文块的信息量,确定所述潜在正文块中的信息块。
依照本发明较佳实施例提供的文本提取方法,在根据所述次级潜在正文块的信息量,确定所述潜在正文块中的信息块;之后,还包括:
对所述信息块进行合并,确定最终提取文本。
依照本发明较佳实施例提供的文本提取方法,所述M个属性包括:所述
文本行及其起始标签所包含的文本行数量Index;
所述文本行在所述Html源码中所包含的字节数TextLength;
所述文本行在所述网页中出现的字节数OutputTextLength;
所述文本行的相对密度Density,所述相对密度为所述文本行在所述网页中出现的字节数和在所述Html源码中出现的字节数的比值;
所述文本行包含的超链接数LinkNum;
所述文本行包含的图片超链接数和ImgNum。
依照本发明较佳实施例提供的文本提取方法,所述第一关联规则中包含X个衡量参数,所述衡量参数为:
(A.Middle,B.High’,C.High’,D.High,E.Low’,F.Low);
其中,
(A.Middle)表示文本行是否出现在所述HTML源码的中间区域;
(B.High’)表示所述文本块的长度是否高于第一阈值;
(C.High’)表示所述述文本块的输出文本长度是否高于第二阈值;
(D.High)表示所述文本块是否具有高于第三阈值的文本密度;
(E.Low’)表示所述文本块中的超链接数目是否少于第四阈值;
(F.Low)表示所述文本块中的图片链接数目是否少于第五阈值。
依照本发明较佳实施例提供的文本提取方法,所述步骤四具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京财经大学,未经南京财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410026939.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多媒体数据文件的管理方法及智能终端
- 下一篇:内容管理