[发明专利]标准化数据库和医学文本库的构建方法、装置及电子设备有效
申请号: | 202110398313.7 | 申请日: | 2021-04-14 |
公开(公告)号: | CN112800173B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 汪知滴;王东风;方杰;周月;纪萍 | 申请(专利权)人: | 北京金山云网络技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36;G06F40/284;G06F40/30;G06F40/44;G16H15/00 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孙翠贤;高莺然 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标准化 数据库 医学 文本 构建 方法 装置 电子设备 | ||
1.一种标准化数据库的构建方法,其特征在于,所述方法包括:
基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库;
其中,所述基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词的步骤,包括:
利用关联分析算法,计算各个关联词组的置信度;其中,每个关联词组包括对多个初始文本数据进行分词处理所得到的多个分词中的、所述多个指定字段的数量个分词,且任意两个关联词组彼此不同,所述两个关联词组彼此不同包括:两个关联词组所包含的分词至少一个不同,或,两个关联词组包含相同的分词但所包含的分词的排列顺序不同;每个关联词组的置信度为:该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率;
将置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词,确定为各个基础词。
2.根据权利要求1所述的方法,其特征在于,所述识别每个基础词所属的指定字段的步骤,包括:
对每个基础词进行语义识别,得到每个基础词所属的指定字段;或者,
根据预设的关于排序与指定字段的对应关系,将每个基础词在所属的目标关联词组中的排序所对应的指定字段,确定为该基础词所属的指定字段。
3.根据权利要求1所述的方法,其特征在于,所述确定每个基础词对应的多个候选标准词的步骤,包括:
利用预设的近义词模型,确定每个基础词的近义词,并将该基础词与该基础词的近义词,确定为该基础词对应的多个候选标准词;
其中,所述近义词模型为:利用指定的语料数据训练得到的模型,所述语料数据为:与所述多个指定字段相关的文本数据。
4.根据权利要求1所述的方法,其特征在于,所述从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词的步骤,包括:
输出每个基础词对应的多个候选标准词;
基于对输出结果的选取操作,确定每个基础词对应的标准词。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述多个指定字段中包括:第一类字段;其中,属于所述第一类字段的各个标准词之间能够按照从属关系进行等级划分;
所述针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库的步骤,包括:
针对每个第一类字段,确定该字段下的各个标准词之间的从属关系,并根据所确定的从属关系,为该字段下的各个标准词进行等级划分;
针对每个第一类字段,按照为该字段下的各个标准词进行等级划分的划分结果,构建该字段下具有等级关系的标准化数据库。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述多个指定字段中包括:第二类字段;其中,属于所述第二类字段的各个标准词中存在具有特定关系词的标准词;所述特定关系词包括:包含关系词和/或替换关系词;
所述针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库的步骤,包括:
针对每个第二类字段,遍历该字段下的各个标准词,并在遍历到每个标准词时,判断该标准词是否具有所述特定关系词;
若具有,建立该标准词与所具有的特定关系词的对应关系;
针对每个第二类字段,在遍历完该字段下的全部标准词后,得到该字段下具有所建立的对应关系的标准化数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山云网络技术有限公司,未经北京金山云网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110398313.7/1.html,转载请声明来源钻瓜专利网。