[发明专利]一种基于文本图像融合识别的网页知识抽取方法有效
申请号: | 201811449829.4 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109522562B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 孙善宝;谭强;于治楼 | 申请(专利权)人: | 山东浪潮科学研究院有限公司 |
主分类号: | G06N5/025 | 分类号: | G06N5/025;G06F40/30;G06F40/284;G06V30/41;G06F16/951;G06F16/2455;G06F16/28;G06F16/25;G06F16/31;G06N3/0442 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 250000 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 图像 融合 识别 网页 知识 抽取 方法 | ||
1.一种基于文本图像融合识别的网页知识抽取方法,其特征在于,
将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度,利用文本分析方法基于语料库实现语义结构化,提取海量网页的价值数据关键字,同时将爬取网页转换成图片,提取结构化业务知识数据,对比分析两种方法提取的知识,不断学习训练出自动抽取模型,同时将确定的业务知识生成该网页的价值数据指纹,并加入到业务知识基础语料库中,持续更新自动抽取模型和基础语料库;
具体操作步骤为:
步骤101、通过所述的云端网页爬虫服务提交网页爬取任务请求,设置爬取任务所属领域及规则;
步骤102、根据所述的网站信用评估服务提供的网页信任度数据,生成网页爬取任务;
步骤103、所述的云端中心将网页爬取任务进行分解,利用云端计算、网络、存储资源爬取目标网站;
步骤104、所述的云端网页爬虫服务将任务目标网站的网页爬取下来,存放在云端;
步骤105、通过所述的文本分析服务将存储的网页进行预处理,将网页数据结构化,基于语料库进行文本分析,提取网页中感兴趣的价值数据;
步骤106、使用所述的图像转换服务通过模拟浏览器展示,将网页转换成图像,并通过图像识别服务识别网页图片的内容,提取其中的结构化业务知识数据;
步骤107、使用所述的数据匹配服务计算网页价值数据指纹,基于大数据仓库进行匹配,确定网页内在价值数据标识;
步骤108、通过所述的知识抽取服务的自动抽取模型对网页价值数据进行提取,对比结合同一价值数据指纹的文本分析和图像分析得到知识,精炼价值数据;
步骤109、将知识数据和价值数据通过所述的结构化存储服务,保存到所述的大数据仓库中,同时生成价值数据指纹作为其标识;
步骤110、所述的知识抽取服务采用LSTM深度学习算法,根据持续收集的海量知识数据确定深度学习网络模型结构,并进行模型训练和学习,得到自动抽取模型;
步骤111、所述的知识抽取服务将得到的知识加入到所述的语料库中;
步骤112、重复执行步骤101至步骤111,持续更新知识抽取网络模型和语料库,提升价值数据和知识抽取质量;
步骤113、结合所述的语料库和所述的大数据仓库收集的数据,可以进行更深层次的语义理解和领域价值洞察分析。
2.根据权利要求1所述的方法,其特征在于,
云端聚集计算、网络、存储资源,对外提供网页知识抽取相关的云服务,利用云端的网站信用评估服务对爬取网站进行分类评估,优先选取信用值高的网站执行网络爬虫程序爬取感兴趣的网页,存储到云端;
将存储的网页利用云端的文本分析服务,基于语料库进行文本分析,提取网页中感兴趣的价值数据,利用云端图像转换服务将网页转换成图片,再利用云端图像识别服务,抽取网页图片的结构化业务知识数据;
通过数据结构化存储服务将网页中提取得到的价值数据,保存到云端存储中,并为其生成价值数据指纹;
利用云端价值数据匹配服务基于大数据仓库进行数据匹配,结合知识抽取服务对比同一价值数据指纹的文本分析和图像分析得到的知识,训练自动抽取模型,并将抽取的知识加入到基础语料库。
3.根据权利要求2所述的方法,其特征在于,
所述的云端中心提供云基础设施,同时提供网页知识抽取相关的云服务,包括网络爬虫、知识抽取、文本分析、图像转换、图像识别、网站评价、语料库、数据结构化存储、价值数据匹配服务。
4.根据权利要求3所述的方法,其特征在于,
所述的网站信用评估服务对爬取网页的网站进行综合评估,充分考虑网站信用、数据准确性、数据时效性因素,得到目标爬取网站的信用值,为网络爬虫提供更好的服务;
所述的网络爬虫服务包含对网页爬取任务的生成、执行、管理,根据网站评价值采用分布式任务分解方式抓取感兴趣的网页。
5.根据权利要求4所述的方法,其特征在于,
所述的文本分析服务将存储的网页基于语料库进行文本分析,提取网页中感兴趣的价值数据文本分析,获取业务知识数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮科学研究院有限公司,未经山东浪潮科学研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811449829.4/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序