[发明专利]一种网页评论内容的抽取方法有效
申请号: | 201610053347.1 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105630772B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 郝志峰;袁琴;蔡瑞初;陈炳丰;骆魁永 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 张文 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 评论 内容 抽取 方法 | ||
一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。本申请降低了时间复杂度,提高了抽取效率和抽取的准确率,且人工干预少,抽取过程全自动,适应范围广,不用构造抽取模板,无需考虑网页结构变更带来模板更新的麻烦。
技术领域
本申请涉及网页信息分析处理技术领域,尤其是一种网页评论内容的抽取方法。
背景技术
《2014年中国网络购物市场研究报告》显示,我国网民使用网络购物的比例从48.9%提升至55.7%。快速积累的海量产品评论信息是商家和消费者进行需求调研或购物决策的重要依据,从大量的结构迥异的网页中快速准确的抽取评论内容已然成为一个亟待解决的问题。
现有的网页信息抽取的方法有很多种,大致可分为以下几类:1、利用树编辑距离的方法来抽取信息,但此方法涵盖大量的增、删、改操作,计算冗余量大,抽取准确率低。2、基于视觉特征网页分块的方法抽取信息,但此方法局限性大,设定的数据区域块面积阈值过大的话,对于评论条数少的网页不适用。3、基于最长公共子串的方法,该方法在将DOM树转化为标签串的过程中丢失了节点的位置信息,导致整体相似性偏高。4、基于简单树匹配的方法,该方法利用动态规划计算两颗树的最大匹配节点个数得到树之间的相似度,过于严苛要求子节点顺序,导致评论节点对应的子树之间相似度偏低。
现有的抽取方法:上海第二工业大学的申请号为200910198184.6,发明名称为“一种基于互联网的模板抽取属性和评论词的方法”。该方法通过人工标注获取属性模板,工作量大且一旦网页结构改变,模板也需随之改变,容易导致抽取效率低下。南京大学的申请号为201310465730.4,发明名称为“一种基于小样本半监督学习的网页数据抽取方法”。该方法需要大量的用户手工选择及标注,过多的人为参与会导致成本的增加和时间花费的增加。大连灵动科技发展有限公司的申请号为201210491471.8,发明名称为“一种网页结构化信息抽取方法”。该方法采用训练小部分网页作为训练集,将其他网页作为测试集,利用正则表达式抽取其文本内容。针对经常变动的网页格式,正则表达式也需要随之改变,给抽取工作带来了巨大的麻烦。
发明内容
为克服现有技术的缺陷,本申请提供一种网页评论内容的抽取方法,降低时间复杂度,提升抽取效率。
一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。
优选的,通过深度加权子树相似度算法抽取最佳频繁子树,具体包括:建立深度加权树,设定深度权重的叶子节点权值为1,逐层向上的父亲节点深度依次加1;以树节点的标签作为关键词,用相同标签的权值总和作为向量坐标,利用余弦向量算法构建节点相似度算法,计算节点相似度;从根节点层次遍历整棵DOM树,计算当前节点的相似度值sim(R),再计算其所有孩子节点的相似度值;判断根节点的相似度值是否同时满足既大于预置的相似度阈值又大于其所有孩子节点的相似度值;若满足,停止遍历,此时该根节点的所有孩子节点构成的孩子子树即为最佳频繁子树。
优选的,当前节点的相似度值sim(R)的计算式为:
其中,xi表示子树T1的节点标签向量,yi表示子树T2的节点标签向量,W和W分别表示xi和yi的权值,m表示根节点R的孩子节点个数,Ti和T分别表示R的两颗孩子子树,叶子节点的相似度值为0,只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似度值.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610053347.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种事件模型中的快速查询匹配方法
- 下一篇:多新闻之间相关性计算方法和装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法