[发明专利]企业信息库的建立方法与装置有效
申请号: | 202310348347.4 | 申请日: | 2023-04-04 |
公开(公告)号: | CN116127047B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 魏炜;赖凯 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/335;G06F16/36;G06F40/205;G06F16/951;G06F16/953 |
代理公司: | 深圳盛德大业知识产权代理事务所(普通合伙) 44333 | 代理人: | 左光明 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业 信息库 建立 方法 装置 | ||
本发明公开了一种企业信息库的建立方法,包括:获取目标企业的企业数据;对企业数据进行规范化处理得到规范化数据;对规范化数据进行文本解析得到解析后数据;对解析后数据进行信息抽取得到各类知识图谱数据;对各类知识图谱数据进行知识精炼得到精炼知识数据;将精炼知识数据进行知识融合得到可入库数据;将可入库数据进行知识入库形成企业信息库。本发明还公开了一种企业信息库的建立装置。本发明的企业信息库的建立方法中,可避免传统的人工规则处理方式导致的规则冲突问题,且更便于维护、维护成本更低,能够形成高质量的企业信息库,从而提升企业的业务管理水平,并可为多种应用场景如智能问答、智能检索和商科研究课题提供数据支撑。
技术领域
本发明属于数据库技术领域,尤其涉及一种企业信息库的建立方法与装置。
背景技术
企业信息库是存储大量的企业数据、信息文档的资料库,其根本任务是高效地、精准地挖掘出用户所需的企业信息资源。然而,传统的企业信息库数据来源有限,多为结构化和半结构化的数据,且对非结构化的文本数据挖掘深度不够,但非结构化的文本数据往往是结构化数据的第一手资料来源。同时,传统的企业信息库构建采用人工或规则的方式进行数据处理,导致维护困难,信息准确率低,成本较高。
发明内容
本发明实施例提供一种企业信息库的建立方法,旨在解决因现有的企业信息库的数据来源局限于结构化与半结构化形式,并采用人工规则进行数据处理,而导致企业信息库的维护困难、信息准确率低与维护成本较高的技术问题。
本发明实施例是这样实现的,一种企业信息库的建立方法,包括:
获取目标企业的企业数据;
对所述企业数据进行规范化处理,得到规范化数据;
对所述规范化数据进行文本解析,得到解析后数据;
对所述解析后数据进行信息抽取,得到各类知识图谱数据;
对各类所述知识图谱数据进行知识精炼,得到精炼知识数据;
将所述精炼知识数据进行知识融合,得到可入库数据;以及
将所述可入库数据进行知识入库,形成企业信息库。
本发明实施例还提供了一种企业信息库的建立装置,包括:
数据获取单元,用于获取目标企业的企业数据;
数据清洗单元,用于对所述企业数据进行规范化处理,得到规范化数据;
文本解析单元,用于对所述规范化数据进行文本解析,得到解析后数据;
信息抽取预测单元,用于对所述解析后数据进行信息抽取,得到各类知识图谱数据;
知识精炼单元,用于对各类所述知识图谱数据进行知识精炼,得到精炼知识数据;
知识融合单元,用于将多组所述知识数据进行知识融合,得到可入库数据;以及
知识入库单元,用于将所述可入库数据进行知识入库,形成企业信息库。
本发明实施例的企业信息库的建立方法中,企业信息库的数据来源为目标企业的企业数据,为非结构化的文本数据,对企业数据进行规范化处理后得到规范化数据,对规范化数据进行文本解析得到解析后数据,根据解析后数据得到深度解析的文本信息,并通过信息抽取与知识精炼得到信息详尽的各类知识图谱数据与精炼知识数据,来提升信息输出的准确率,采用AI模型将非结构化文本转换成结构化的多元组数据,避免传统的人工规则处理方式导致的规则冲突问题,且更便于维护、维护成本更低,能够形成高质量的企业信息库,从而提升企业的业务管理水平,并可为多种应用场景如智能问答、智能检索和商科研究课题提供数据支撑。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310348347.4/2.html,转载请声明来源钻瓜专利网。