[发明专利]一种标准知识库的构建方法及装置在审
申请号: | 202111194988.6 | 申请日: | 2021-10-14 |
公开(公告)号: | CN113642327A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 李海丽;史晨阳;王磊;黄登玺;潘学芳;林勇;金佩;王宇宸;乔佳丽 | 申请(专利权)人: | 中国光大银行股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/237;G06N5/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 100033 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标准 知识库 构建 方法 装置 | ||
本发明公开了一种标准知识库的构建方法及装置,包括:获取到待处理用语的字段信息,对待处理用语的字段信息进行标准化处理,得到标准用语的字段信息,再对待处理用语的字段的中文名称进行分词,根据分词得到的中文单词构建标准单词库,并通过标准用语的标准域信息构建标准域库,其中标准域信息包括分类词和数据特征;通过建立标准用语与标准单词库和标准域库之间的关联关系建立标准域库。这样,该标准知识库对标准用语进行了更细粒度的划分,并且通过划分后的细粒度的信息,提升了标准用语检索的成功率。并且,提升了数据的规范化程度,统一了数据类型,进而提升了数据库生成过程中逻辑模型和物理设计的效率。
技术领域
本发明涉及数据处理领域,尤其涉及一种标准知识库的构建方法及装置。
背景技术
目前数据存在质量低下、数据缺乏标准无法共享等问题,这样就无法发挥数据应有的价值。
发明内容
有鉴于此,本发明实施例公开了一种标准知识库的构建方法及装置,通过该方法得到的标准知识库中不仅仅包含标准用语,还包括组成标准用语的单词,以及标准用语的数据特征。由此可知,该标准知识库对标准用语进行了更细粒度的划分,并且通过划分后的细粒度的信息,能够提升标准用语检索的成功率。
本发明实施例公开了一种标准知识库的构建方法,包括:
获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据特征;
按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息;
对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;
获取每个中文单词对应的英文名称;
将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
获取标准用语的标准域信息,并将所述标准域信息添加到所述标准域库中;所述标准域信息包括:标准用语的分类词和数据特征;
将标准用语、标准单词库和标准域库进行关联,生成标准用语库。
可选的,所述按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息:
去除待处理用语的中文名称中包含的第一特征字符;
去除待处理用语的英文名称中包含的第二特殊字符;
若检测到待处理用语的字段中存在数据项缺失的情况,采用预设的补充信息对缺失的数据项进行补全;
以中文名称、英文名称、数据类型以及数据特征为基准单位,对标准用语进行去重处理。
可选的,在对每个标准用语的中文名称进行分词处理之前,还包括:
以中文名称和英文名称为基准单位,对标准用语进行去重处理。
可选的,将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中,包括:
将分词处理后得到的中文单词与标准单词库中的单词进行匹配;
对未能成功匹配的单词进行标记;
若存在标记的单词符合预设的单词定义,则将标记的单词添加到标准单词库中。
可选的,还包括:
检验所述标准单词库中是否存在一个中文单词对应多个英文名称的情况;
若存在一个中文单词对应多个英文名称的情况,则确定所述中文单词的标准英文名称;
采用标准英文名称替换所述中文单词对应的英文名称。
或者
检测所述标准单词库中是否存在含义不明确的单词;
若所述标准单词库中存在含义不明确的单词,获取所述单词拆分之前对应的中文名称,并将所述中文名称替换所述含义不明确的单词。
可选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国光大银行股份有限公司,未经中国光大银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111194988.6/2.html,转载请声明来源钻瓜专利网。