[发明专利]一种标准知识库的构建方法及装置在审
申请号: | 202111194988.6 | 申请日: | 2021-10-14 |
公开(公告)号: | CN113642327A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 李海丽;史晨阳;王磊;黄登玺;潘学芳;林勇;金佩;王宇宸;乔佳丽 | 申请(专利权)人: | 中国光大银行股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/237;G06N5/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 100033 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标准 知识库 构建 方法 装置 | ||
1.一种标准知识库的构建方法,其特征在于,包括:
获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据特征;
按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息;
对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;
获取每个中文单词对应的英文名称;
将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
获取标准用语的标准域信息,并将所述标准域信息添加到标准域库中;所述标准域信息包括:标准用语的分类词和数据特征;
将标准用语、标准单词库和标准域库进行关联,生成标准用语库。
2.根据权利要求1所述的方法,其特征在于,所述按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息,包括:
去除待处理用语的中文名称中包含的第一特征字符;
去除待处理用语的英文名称中包含的第二特殊字符;
若检测到待处理用语的字段中存在数据项缺失的情况,采用预设的补充信息对缺失的数据项进行补全;
以中文名称、英文名称、数据类型以及数据特征为基准单位,对标准用语进行去重处理。
3.根据权利要求1所述的方法,其特征在于,在对每个标准用语的中文名称进行分词处理之前,还包括:
以中文名称和英文名称为基准单位,对标准用语进行去重处理。
4.根据权利要求1所述的方法,其特征在于,将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中,包括:
将分词处理后得到的中文单词与标准单词库中的单词进行匹配;
对未能成功匹配的单词进行标记;
若存在标记的单词符合预设的单词定义,则将标记的单词添加到标准单词库中。
5.根据权利要求1所述的方法,其特征在于,还包括:
检验所述标准单词库中是否存在一个中文单词对应多个英文名称的情况;
若存在一个中文单词对应多个英文名称的情况,则确定所述中文单词的标准英文名称;
采用标准英文名称替换所述中文单词对应的英文名称;
或者
检测所述标准单词库中是否存在含义不明确的单词;
若所述标准单词库中存在含义不明确的单词,获取所述单词拆分之前对应的中文名称,并将所述中文名称替换所述含义不明确的单词。
6.根据权利要求1所述的方法,其特征在于,还包括:
检验所述标准单词库中是否存在含义相似的单词;
若存在含义相似的单词,从所述含义相似的单词中确定一个标准单词;
去除所述标准单词库中与所述标准单词含义相似的单词,并将与所述标准单词具有相似含义的单词存储到非标准单词库中;
建立所述标准单词库中标准单词与所述非标准知识库中与所述标准单词具有相同含义的单词的映射关系。
7.根据权利要求1所述的方法,其特征在于,获取标准用语的标准域信息,包括:
基于所述标准单词库,对所述标准用语的中文名称进行分词处理,得到至少一个中文单词;
将组成所述中文名称的中文单词中的最后一个中文单词作为分类词;
获取所述标准用语的数据特征;所述数据特征包括:数据类型和长精度;
将所述分类词、标准用语的数据类型和长精度,作为所述标准用语的标准域信息。
8.根据权利要求1所述的方法,其特征在于,还包括:
检测是否存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况;
若存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况,根据标准域信息生成标识信息;
通过标识信息对标准用语的中文名称和英文名称进行标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国光大银行股份有限公司,未经中国光大银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111194988.6/1.html,转载请声明来源钻瓜专利网。