[发明专利]一种获取业务信息的方法及装置有效
申请号: | 201310432901.3 | 申请日: | 2013-09-22 |
公开(公告)号: | CN103488746B | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 余飞;邓伟;庾小波;杨勇涛 | 申请(专利权)人: | 成都锐理开创信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 610041 四川省成都市高新区世纪*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 业务 信息 方法 装置 | ||
1.一种获取业务信息的方法,其特征在于,包括:
获取与所述业务信息相关的至少两个目标网页;
将各个所述目标网页分别解析为DOM树;
遍历各个所述DOM树的节点,根据所述节点的视觉信息将各个所述DOM树划分为至少两个语义块;
根据各个所述语义块的相关信息分别确定各个DOM树的目标语义块,并提取所述目标语义块作为目标区域;所述目标语义块包含有所述业务信息的属性及与所述属性相对应的属性值信息;
依据预先建立的指标库中的指标,分别遍历各个所述目标语义块对应的DOM子树,在各个DOM子树中分别定位包含所述业务信息的属性的目标节点;所述指标用以描述所述业务信息的各项属性;
通过决策获得各个所述目标节点的模式类别,并依据所述模式类别在各个DOM子树中,提取各个目标节点的多个关联节点;
判断各个关联节点中包含有所述业务信息的属性对应的属性值信息的可能性,并依据各个可能性的高低确定可能性最高的关联节点;
提取所述可能性最高的关联节点中的属性值信息。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述业务信息相关的至少两个目标网页包括:
利用通用搜索引擎获取至少两个原始网页;
依据预先建立的业务词库将各个原始网页分割为多个独立的词语形成词语集;
计算预先建立的指标库中的指标在各个词语集中所占的比例,和/或,计算各个词语集的信息熵与所述指标库的信息熵的相似度;
提取所述比例和/或所述相似度满足预设范围的至少两个原始网页作为目标网页。
3.根据权利要求1至2任意一项所述的方法,其特征在于,所述方法之后还包括:
将从某一个目标区域中提取出的属性及属性值信息作为主数据,将从其他目标区域中提取出的属性及属性值信息作为第一辅助数据;
在所述第一辅助数据中根据不同的数据类型选择第二辅助数据;其中,选择规则与所述数据类型相对应;
若所述主数据信息中的属性项少于所述第一辅助数据中的属性项,则补充所述主数据缺失的属性及其对应的属性值信息,并将所述补充后的主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存;
若所述主数据信息中的属性项不少于所述第一辅助数据中的属性项,则将所述主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存。
4.一种获取业务信息的装置,其特征在于,包括:
目标网页获取单元,用于获取与所述业务信息相关的至少两个目标网页;
解析单元,用于将各个目标网页分别解析为DOM树;
语义块划分单元,用于遍历各个DOM树的节点,根据所述节点的视觉信息将各个DOM树划分为至少两个语义块;
目标语义块提取单元,用于根据各个语义块的相关信息分别确定各个DOM树的目标语义块,并提取所述目标语义块作为目标区域;所述目标语义块包含有所述业务信息的属性及与所述属性相对应的属性值信息;
目标节点定位单元,用于依据预先建立的指标库中的指标,分别遍历各个目标语义块对应的DOM子树,在各个DOM子树中分别定位包含所述业务信息的属性的目标节点;所述指标用以描述所述业务信息的各项属性;
关联节点提取单元,用于通过决策获得各个目标节点的模式类别,并依据所述模式类别在各个DOM子树中,提取各个目标节点的多个关联节点;
关联节点确定单元,用于判断各个关联节点中包含有所述业务信息的属性对应的属性值信息的可能性,并依据各个可能性的高低确定可能性最高的关联节点;
属性值信息提取单元,用于提取所述可能性最高的关联节点中的属性值信息。
5.根据权利要求4所述的装置,其特征在于,所述目标网页获取单元包括:
原始网页获取单元,用于利用通用搜索引擎获取至少两个原始网页;
分词单元,用于依据预先建立的业务词库将各个原始网页分割为多个独立的词语形成词语集;
计算单元,用于计算预先建立的指标库中指标在各个词语集中所占的比例,和/或,计算各个词语集的信息熵与所述指标库的信息熵的相似度;提取单元,用于提取所述比例和/或所述相似度满足预设范围的至少两个原始网页作为目标网页。
6.根据权利要求4至5任意一项所述的装置,其特征在于,还包括:
数据区分单元,用于将从某一个目标区域中提取出的属性及属性值信息作为主数据,将从其他目标区域中提取出的属性及属性值信息作为第一辅助数据;所述目标区域即包含业务内容的区域;
辅助数据确定单元,用于在所述第一辅助数据中根据不同的数据类型选择第二辅助数据;其中,选择规则与所述数据类型相对应;
第一合并单元,用于若所述主数据信息中的属性项少于所述第一辅助数据中的属性项,则补充所述主数据缺失的属性及其对应的属性值信息,并将所述补充后的主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存;
第二合并单元,用于若所述主数据信息中的属性项不少于所述第一辅助数据中的属性项,则将所述主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都锐理开创信息技术有限公司,未经成都锐理开创信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310432901.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:提供信息搜索的方法、客户端
- 下一篇:多源监测数据集成系统及集成方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置