[发明专利]一种基于相似度的网页标题抽取方法在审
申请号: | 201610484263.3 | 申请日: | 2016-06-28 |
公开(公告)号: | CN105930541A | 公开(公告)日: | 2016-09-07 |
发明(设计)人: | 董雄飞 | 申请(专利权)人: | 合肥酷睿网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230000 安徽省合肥市安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于相似度的网页标题抽取方法,利用网页标题与正文信息之间的关系,通过计算语言“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力,时长前景广阔。 | ||
搜索关键词: | 一种 基于 相似 网页 标题 抽取 方法 | ||
【主权项】:
一种基于相似度的网页标题抽取方法,其特征在于,包括如下步骤:(1)网页文档预处理计算句子之间的相似度,首先将网页文档中含有的信息转换为文本文档表示,将经过划分后的段落或句子等同定义为一个语言“单位;(2)相似度计算利用正向迭代最细粒度切分算法分词后的公共子词语方式计算单位间的相似度;(3)权值计算根据相似度,得到权值计算公式:Weight(unit‑i)=∑Sim(unit‑i,unit‑j)(i≠j),其中unit‑i为需要计算权值的单位,Sim(unit‑i,unit‑j)为unit‑i与unit‑j的相似度;(4)文档标题的选取的预处理将整篇文本文档以“\ n”划分成多个语言单位,通过计算后,表示成Collection< < unit i,weight i> > sortList;(5)标题的选取①首先对sortList按照文档中的单位unit的权值Weight′(unit)进行升序排序;②计算所有顶点的度数和TTCT以及权值大于等于A的顶点总个数PCT;③计算平均度的阈值aveCT;④选取sortList中序号idx较小的两个语言单位作为候选标题;⑤比较两个候选单位的权值,选取权值较大的单位作为抽取“真实标题”的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥酷睿网络科技有限公司,未经合肥酷睿网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610484263.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种测定热释电红外探测器响应时间的方法
- 下一篇:信息搜索处理方法及装置