[发明专利]一种基于文本图像融合识别的网页知识抽取方法有效

申请号：	201811449829.4	申请日：	2018-11-30
公开（公告）号：	CN109522562B	公开（公告）日：	2023-04-18
发明（设计）人：	孙善宝;谭强;于治楼	申请（专利权）人：	山东浪潮科学研究院有限公司
主分类号：	G06N5/025	分类号：	G06N5/025;G06F40/30;G06F40/284;G06V30/41;G06F16/951;G06F16/2455;G06F16/28;G06F16/25;G06F16/31;G06N3/0442
代理公司：	济南信达专利事务所有限公司 37100	代理人：	阚恭勇
地址：	250000 山东省济***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本图像融合识别网页知识抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本图像融合识别的网页知识抽取方法，其特征在于，

将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度，利用文本分析方法基于语料库实现语义结构化，提取海量网页的价值数据关键字，同时将爬取网页转换成图片，提取结构化业务知识数据，对比分析两种方法提取的知识，不断学习训练出自动抽取模型，同时将确定的业务知识生成该网页的价值数据指纹，并加入到业务知识基础语料库中，持续更新自动抽取模型和基础语料库；

具体操作步骤为：

步骤101、通过所述的云端网页爬虫服务提交网页爬取任务请求，设置爬取任务所属领域及规则；

步骤102、根据所述的网站信用评估服务提供的网页信任度数据，生成网页爬取任务；

步骤103、所述的云端中心将网页爬取任务进行分解，利用云端计算、网络、存储资源爬取目标网站；

步骤104、所述的云端网页爬虫服务将任务目标网站的网页爬取下来，存放在云端；

步骤105、通过所述的文本分析服务将存储的网页进行预处理，将网页数据结构化，基于语料库进行文本分析，提取网页中感兴趣的价值数据；

步骤106、使用所述的图像转换服务通过模拟浏览器展示，将网页转换成图像，并通过图像识别服务识别网页图片的内容，提取其中的结构化业务知识数据；

步骤107、使用所述的数据匹配服务计算网页价值数据指纹，基于大数据仓库进行匹配，确定网页内在价值数据标识；

步骤108、通过所述的知识抽取服务的自动抽取模型对网页价值数据进行提取，对比结合同一价值数据指纹的文本分析和图像分析得到知识，精炼价值数据；

步骤109、将知识数据和价值数据通过所述的结构化存储服务，保存到所述的大数据仓库中，同时生成价值数据指纹作为其标识；

步骤110、所述的知识抽取服务采用LSTM深度学习算法，根据持续收集的海量知识数据确定深度学习网络模型结构，并进行模型训练和学习，得到自动抽取模型；

步骤111、所述的知识抽取服务将得到的知识加入到所述的语料库中；