[发明专利]一种网页数据结构化解析方法和装置有效
申请号: | 201510119703.0 | 申请日: | 2015-03-18 |
公开(公告)号: | CN104699797B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 范莹;于治楼;梁华勇 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 李世喆 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 数据结构 化解 方法 装置 | ||
1.一种网页数据结构化解析方法,其特征在于,包括步骤:
步骤A,采集一领域同一类型的模板网页多个,对采集到的模板网页的数据进行正文提取和按预设规则进行结构化解析,将提取的正文和对应的解析后的数据作为训练语料;
步骤B,提取该领域多种类型的模板网页各多个,从中获取结构化项名及其在不同网页中的各种别名;
步骤C,根据所述训练语料,训练解析模型,包括:
构建解析模型θ(N,M,A,B,p,q),其中,N为状态数目,设状态集合为S={s1,s2,...,sN},为模型的隐含状态;M为观察符号数目,设观察符号集合为E={e1,e2,...,eM};A为状态转移矩阵,简记为aij,表示在t时刻,状态si的条件下,t+1时刻状态为sj的概率;B为观察符号概率矩阵,其中简记为bij,表示当处于状态si时观察到符号ej的概率;为初始状态概率矢量,其中简记为pi,表示初始选取的状态为si的概率;为结束状态概率矢量,其中简记为qi,表示随机过程结束于状态si的概率;
根据所述训练语料,使用统计的方法计算出所述解析模型的参数A、B、p、q:
aij=p(sj|si)≈C(si,sj)/C(si)
其中C(si,sj)表示状态si下一个状态是sj的次数;C(si)表示状态si出现的次数;
bij=p(ej|si)≈C(ej,si)/C(si)
其中C(ej,si)表示ej作为状态si出现的次数;C(si)表示状态si出现的次数;
pi=p(si|t=1)≈C(si|t=1)/C(r)
其中C(si|t=1)表示初始t=1时刻si的次数;C(r)表示训练语料的句子数;
qi=q(si|t=L)≈C(si|t=L)/C(r)
其中C(si|t=L)表示随机序列最后时刻L终止于si的次数;C(r)表示训练语料的句子数;
步骤D,对待解析的网页数据进行解析模型解码,并与所述结构化项名及其别名进行比对,获得结构化数据。
2.根据权利要求1所述的网页数据结构化解析方法,其特征在于,所述步骤A之前还包括步骤:预先使用htmlunit编写解析规则;
所述步骤A中对采集到的模板网页的数据进行正文提取和按预设规则进行结构化解析,包括步骤:对采集的模板网页的数据使用Content Extractor-master算法进行正文提取得到网页正文,按所述解析规则进行结构化解析。
3.根据权利要求1所述的网页数据结构化解析方法,其特征在于,所述步骤B中提取该领域多种类型的模板网页各多个,包括步骤:
分别构建多种类型的模板网页的DOM树,将各个DOM树中的节点名称按广度遍历加入各个队列,生成各个DOM树节点队列,对所有DOM树节点队列,按队列顺序取出节点名称进行比较,相同的加入DOM分类树节点中,不同的建立树分叉然后加入,得到对应各分类网页的DOM树模板网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510119703.0/1.html,转载请声明来源钻瓜专利网。