[发明专利]基于块、模式识别及行文本的通用论坛正文提取算法有效

申请号：	201710427648.0	申请日：	2017-06-08
公开（公告）号：	CN107391559B	公开（公告）日：	2020-06-02
发明（设计）人：	龙鑫;武继刚;杨哲;左超	申请（专利权）人：	广东工业大学
主分类号：	G06F16/957	分类号：	G06F16/957
代理公司：	广东广信君达律师事务所 44329	代理人：	杨晓松
地址：	510062 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于模式识别行文通用论坛正文提取算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

论坛的文本提取，通过解析论坛的html文件获得论坛中的核心内容，从其中提取出来的文本信息对商业决策，舆论分析以及社会调查都具有重大的意义。其中这个技术有两个重要的步骤，html文本的去噪以及核心内容的识别和提取，html文本的去噪需要将html文本中无用的信息片段去除，核心内容的识别和提取实现则会依据作者设计的方法出现很大的差异。在本发明中，主要对核心内容的识别提取方面提出一种基于块、模式识别以及行文本的通用论坛提取方法，通过机器学习实现模式的自我更新以及对论坛html文件的分块来更加准确地提取出论坛文本的核心内容，并且使得本方法在面对多种方法实现的论坛时也具有通用性，避免了对不同论坛需要设计不同方法来提取带来的繁琐。

技术领域

本发明涉及一种论坛文本的提取，特别涉及一种通用的论坛文本提取。

背景技术

模式识别：模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的) 信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程。

论坛文本提取：论坛文本提取指的是去除网页中的冗余部分，只对论坛中最核心的内容进行提取，其中包括发帖者和回复者的所发的个人信息、文字内容、以及内容发表的时间。现有的论坛文本提取技术只能针对某个特定的网页进行提取。

最小编辑距离：其目的是找出两个字符串之间需要改动多少个字符后变成一致。该方法使用了动态规划的算法策略，该问题具备最优子结构，最小编辑距离包含子最小编辑距离，有下列的公式：

d_[i，j]：表示字符串X[0，1，2，3，i]与字符串X[0，1，2，3，j]之间的距离

x_i：表示字符串X[0，1，2，3，i]中的第i个元素

x_j：表示字符串X[0，1，2，3，i]中的第j个元素

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于块、模式识别以及行文本的通用论坛提取方法。通过处理后的html文本匹配生成一个模式库，然后依据时间对网页进行分块并在块中利用模式对文本进行提取，同时模式是可以利用现有模式生成新的模式来达到高正确率的效果，因此这种算法具有通用性以及自我学习的特点。使用时间以及行文本密度对网页进行分块对论坛的html文件进行分块，利用html文本匹配生成模式对分块正文内容进行提取。模式可以在匹配的过程中进行自我更新。

本发明克服了传统论坛文本提取方法不具通用性或通用性极低的缺点，本发明的通用性使得无需针对不同论坛的而设计不同的方法进行内容的提取。而且克服了传统基于dom树通用提取文本方法处理速度慢的问题。论坛文本提取的通用性提升了了10％～30％；性能相对传统文本的提取提升了约20％。

附图说明

图1方法流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

基于块，模式识别以及行文本的通用论坛提取方法，如图1所示，具体包括如下步骤：

第一步：利用正则表达式去掉所有的网页标签，脚本函数以及空行。

第二步：根据已经提供的目标数据，不断进行模式匹配，找出目标字段的前面和后面的文本，找出的前后字符串就是该目标字段的模式。

第三步：保存模式以及目标网站url到文件中。

第四步：根据输入的url匹配到模式库中最小编辑距离最短的url，同时找到这种模式。

第五步：根据时间以及行文本密度进行分块，并根据模式提取论坛网页中的正文，同时找到日期。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。