[发明专利]一种网页数据结构化解析方法和装置有效
申请号: | 201510119703.0 | 申请日: | 2015-03-18 |
公开(公告)号: | CN104699797B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 范莹;于治楼;梁华勇 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 李世喆 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种网页数据结构化解析方法,该方法首先根据某种模板网页编写根据规则提取信息的程序,获得训练语料;同时,利用逆向文档频率IDF获取可能的要结构化的项的可能名称;然后利用所述训练语料训练隐马尔科夫模型,确定参数;使用相关算法对待解析网页进行隐马尔科夫模型解码,获得最终结构化数据。本发明还提供一种网页数据结构化解析装置,包括采集模块、获取模块、训练模块和解码模块。该方法和装置,交由模型本身的智能解析和自学习的特点来完成,无需领域专家投入太多精力,人工依赖程度低,大大提高了解析的准确率、性能和效率。 | ||
搜索关键词: | 一种 网页 数据结构 化解 方法 装置 | ||
【主权项】:
一种网页数据结构化解析方法,其特征在于,包括步骤:步骤A,采集一领域同一类型的模板网页多个,对采集到的模板网页的数据进行正文提取和按预设规则进行结构化解析,将提取的正文和对应的解析后的数据作为训练语料;步骤B,提取该领域多种类型的模板网页各多个,从中获取结构化项名及其在不同网页中的各种别名;步骤C,根据所述训练语料,训练解析模型,包括:构建解析模型θ(N,M,A,B,p,q),其中,N为状态数目,设状态集合为S={s1,s2,...,sN},为模型的隐含状态;M为观察符号数目,设观察符号集合为E={e1,e2,...,eM};A为状态转移矩阵,简记为aij,表示在t时刻,状态si的条件下,t+1时刻状态为sj的概率;B为观察符号概率矩阵,其中简记为bij,表示当处于状态si时观察到符号ej的概率;为初始状态概率矢量,其中简记为pi,表示初始选取的状态为si的概率;为结束状态概率矢量,其中简记为qi,表示随机过程结束于状态si的概率;根据所述训练语料,使用统计的方法计算出所述解析模型的参数A、B、p、q:aij=p(sj|si)≈C(si,sj)/C(si)其中C(si,sj)表示状态si下一个状态是sj的次数;C(si)表示状态si出现的次数;bij=p(ej|si)≈C(ej,si)/C(si)其中C(ej,si)表示ej作为状态si出现的次数;C(si)表示状态si出现的次数;pi=p(si|t=1)≈C(si|t=1)/C(r)其中C(si|t=1)表示初始t=1时刻si的次数;C(r)表示训练语料的句子数;qi=q(si|t=L)≈C(si|t=L)/C(r)其中C(si|t=L)表示随机序列最后时刻L终止于si的次数;C(r)表示训练语料的句子数;步骤D,对待解析的网页数据进行解析模型解码,并与所述结构化项名及其别名进行比对,获得结构化数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510119703.0/,转载请声明来源钻瓜专利网。