[发明专利]一种网页主题信息抽取方法在审
申请号: | 201210495346.4 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103838801A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 郑世超;刘立堂 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页主题信息抽取方法,包括以下步骤:使用树状信息的结构表示法表示个性化服务问题;进行结构化问题的逻辑化表示;进行个性化服务问题有序求解。由于本发明使用树状信息的结构表示法来描述个性化服务问题,将各种领域和形式的个性化服务问题使用服务内容要素、服务对象要素和其他要素这三个基本要素表示,将个性化服务问题分为基本要素、基本信息和子信息三个层次,所以可以使大部分领域信息系统的个性化服务问题结构化,进而可以由此设定个性化服务的推荐规则;本发明采用加权搜索所有解的方法,与顾客最近购买纪录相关的推理结果权值最大,以后根据购买顺序依次降低,因此推荐出新的服务对象感兴趣的资源。 | ||
搜索关键词: | 一种 网页 主题 信息 抽取 方法 | ||
【主权项】:
1.一种网页主题信息抽取方法,其特征在于:包括以下步骤:A、主题信息抽取方法将布局标签分块,用TABLE和TD标签结点作为分块结点,块内的语义属性是contentlength和linkcount,分别是文字数和链接数,一个STU-DOM结点的主题相关度表示该结点与HTML文档主题的关联程度,主题相关度含两部分:局部相关度(local correlativity)和上下文相关度contextual correlativity;局部相关度由块内链接和内容决定,其计算公式可以表达为LocalCorrelativity(STUi)=LinkCount(STUi)/Contentlength(STUi)LinkCount ( STUi ) = Σ j = 1 N LinkCount ( STUCij ) CountentLength ( STUi ) = Σ j = 1 N ContentLength ( STUCij ) ]]> 其中,STUCij表示STUi的第j个子树,LinkCount(STUi)是STUi的linkcount属性值,用其所有子树中的链接数之和计算,CountentLength(STUi)是STUi的contentlength属性值,用其所有子树中的非链接文字的字符数之和计算;上下文相关度由块内链接和父块内容决定,其计算公式可以表达为:ContextualCorrelativity(STUi)=LinkCount(STUi)/ContentLength(STUPi)其中,STUPi表示STUi的父STU结点,在STU-DOM树中是具有语义属性的最近祖先结点;语义分析器用上述算法对STU结点进行上下文语义分析,计算contentlength和linkcount属性值;B、网页文本语义获取的方法B1、基于布局标签的粗粒度划分对于HTML网页最常用的抽象表示方法就是构造网页的标签树;本方法对网页的HTML标签文档进行粗粒度划分;B2、网页文本语义获取方法研究网页文本语义获取包括整个网页以及网页中各个语义块的文本语义获取,作为网页的量化表示,本方法以特征向量作为网页和语义块的文本语义信息;B21、网页特征向量获取根据大量的实验分析,总结出了重要信息标签的合理权值;网页特征权值计算步骤如下:首先确定系统的分词词典为:{t1,t2,...,tn},利用分词系统FreeICTCLASLinux对网页进行分词,分词后的网页p的特征项集合可以表示为:其中,tk(1≤k≤N)是网页p中出现的特征项,mk(1≤k≤N)是每个特征项出现的次数;对于网页每个特征项,它们的权值可以通过公式计算获得:WT′(ti,p)=WTL(ti,p)×DS(p)×IDF(ti)其中,WT(ti,p)表示特征项ti在网页p中权值,由三部分组成:特征项标签权值WTL(ti,p);文档特征项长度因子DS(p);特征项的倒置文档频率IDF(t);特征项ti在网页p中权值可以通过公式计算获得:WTL ( t i , p ) = w 0 + Σ j = 1 m i W L j ]]> 其中,w0为特征项初始权值,为ti出现的所有重要信息标签权值之和;文档特征项目长度因子可以通过公式计算获得:DS(p)=log(Lmax/L(p))其中Lmax表示所有网页中特征项最多的个数,L(p)表示网页p特征项个数;沿用IDF计算方法;根据以上分析,特征权值公式可以展开为:WT′(ti,p)=WTL(ti,p)×log(Lmax/L(p))×log(N/T(ti))其中,N代表保存在本地的网页总量,T(ti)是包含特征项ti的网页的总量;最后,对WT′(ti,p)进行归一化处理,其中WTmax是网中特征项权值最大值;WT ( t i , p ) = WT ′ ( t i , p ) WT max ]]> 通过此公式的计算方式,获得网页p中每个特征项的特征权值,则网页可以用以下特征向量形式表示:WB(p)=[WT(t1,p),WT(t2,p),...,WT(tN,p)],则WB(p)作为网页的特征向量;B22、语义块特征向量获取本方法首先根据语义块权值传递规则来计算语义块权值因子,然后结合TF*IDF方法,给出BW*TF*IBF方法计算特征项的局部特征权值,从而用特征向量形式来量化表示语义块;叶子语义块中出现的重要标签权值,计算每个语义块的权值传递方法如下:每个语义块的初始权值为1;为每个重要信息标签赋予一个影响因子;根据叶子语义块出现的标签来累加计算出该叶子语义块的影响因子;对于每个叶子语义块,如果影响因子为λ,则该叶子语义块的权值变为当前权值的平方,它的父语义块和兄弟语义块的权值为当前值的倍,然后以该父语义块为变化源,按照上述规则再向外扩展一次,直到遇到<body>标签;其中,块权值BW:表示语义块的权值,通过语义块权值传递规则获得;词频TF:表示特征项在语义块中出现的频率;词语倒排块频率IBF:表示特征项在叶子语义块中分布情况的量化;叶子语义块中特征权值由公式计算:w ij = ( bw j × tf ij ) × log ( BN n i ) Σ i = 1 N ( bw j × tf ij ) 2 [ log ( BN n i ) ] 2 ]]> 其中,wij是特征i在叶子语义块j中的特征项权值,即局部特征权值;bwj表示语义块Sj的权值,它的值由语义块权值传递规则求得;tfij表示特征项i在语义块Sj中的词频;BN表示网页中语义块的总数;N表示网页中不同特征项的总数;nk表示出现特征项i的语义块的个数;获得特征项局部特征权值后,网页P的叶子语义块Sj的特征向量表示为WSB(P,Sj)=[ω1j,ω2j,...,ωNj],获得了网页和语义块的特征向量表示后,将其作为网页和语义块的文本语义属性,添加到已经构造好粗粒度划分DOM树中;本方法构造的网页粗粒度划分DOM树,克服了HTML缺乏语义描述不足的缺点,同时由于基于DOM树规范,可以方便的访问、修改、添加和删除DOM树中语义块节点;C、基于分块的网页主题信息抽取流程C1、网页表示模块本方法首先对网页HTML标签文档进行清洗,然后对网页HTML标签文档基于容器标签的粗粒度划分,构造网页粗粒度划分DOM树,最后获取网页和语义块的特征向量表示作为网页和语义块的文本语义属性;C2、主题信息抽取模块本方法首先对语义块和网页类型进行判别,然后基于网页类型,分别抽取出主题型网页、目录型网页和图片型网页的主题信息;抽取的主题信息包括网页的标签和正文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210495346.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种溶剂盛放装置
- 下一篇:用于管理视频解码过程中的画面的解码器及其方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置