[发明专利]一种网页评论内容的抽取方法有效
申请号: | 201610053347.1 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105630772B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 郝志峰;袁琴;蔡瑞初;陈炳丰;骆魁永 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 张文 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 评论 内容 抽取 方法 | ||
1.一种网页评论内容的抽取方法,其特征在于:包括以下步骤:
获取网页源码;
将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;
通过深度加权子树相似度算法抽取最佳频繁子树,具体包括:
建立深度加权树,设定深度权重的叶子节点权值为1,逐层向上的父亲节点深度依次加1;
以树节点的标签作为关键词,用相同标签的权值总和作为向量坐标,利用余弦向量算法构建节点相似度算法,计算节点相似度;
从根节点层次遍历整棵DOM树,计算当前节点的相似度值sim(R),再计算其所有孩子节点的相似度值,其中,所述当前节点的相似度值sim(R)的计算式为:
其中,xi表示子树T1的节点标签向量,yi表示子树T2的节点标签向量,wxi和wyi分别表示xi和yi的权值,m表示根节点R的孩子节点个数,Ti,Tj分别表示R的两颗孩子子树,叶子节点的相似度值为0,只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似度值;
判断根节点的相似度值是否同时满足既大于预置的相似度阈值又大于其所有孩子节点的相似度值;
若满足,停止遍历,此时该根节点的所有孩子节点构成的孩子子树即为最佳频繁子树;
通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。
2.根据权利要求1所述的方法,其特征在于:所述通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容,具体包括:
通过频繁子树对齐方法抽取最小评论区域,计算子树对齐值C(Ti),将子树对齐值C(Ti)中最小值对应的子树作为最小评论区域,其中,所述的子树对齐值C(Ti)的计算式为:
其中,Ti表示根节点下的第i棵子树,aj表示第j个节点的对齐次数,n表示该子树的节点总数,t表示频繁子树的总棵树;
通过路径的文本长度抽取最频繁评论路径,计算最小评论区域中每条从根节点到叶子节点的路径频繁值L(pj),获取最频繁路径并抽取评论内容,其中,所述的叶子节点的路径频繁值L(pj)的计算式为:
其中,pj表示第j条从根节点到叶子节点的路径,a表示该条路径中叶子节点的对齐次数,t表示频繁子树的总棵树,len(Tk)表示第k棵子树中该路径包含的文本长度,len(T)表示所有频繁子树中该路径包含的文本长度总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610053347.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种事件模型中的快速查询匹配方法
- 下一篇:多新闻之间相关性计算方法和装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法