[发明专利]一种心理疾病知识图谱的构建方法及系统有效
申请号: | 202110512846.3 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113128233B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 陈贞翔;徐翰琛;杨倩;黄鹤林;姜晓庆;尚铭悦 | 申请(专利权)人: | 济南大学;山东思正信息科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N5/02;G06F16/951 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 心理疾病 知识 图谱 构建 方法 系统 | ||
1.一种心理疾病知识图谱的构建方法,其特征是:包括以下步骤:
获取心理疾病相关已有信息,建立心理疾病语料集;
根据所述心理疾病语料集,确定实体、关系以及属性指示词表;
利用语言模型对所述心理疾病语料集中的数据进行微调,构建心理疾病命名实体识别数据集,提取所述命名实体识别数据集的特征值,将微调后的数据和提取的特征进行融合,利用融合后的数据对预先构建的深度学习模型进行训练;其中,利用语言模型对所述心理疾病语料集中的数据进行微调,构建心理疾病命名实体识别数据集,提取所述命名实体识别数据集的特征值的具体过程包括:获取预训练好的ALBERT语言模型,对得到的语料进行预训练微调;构建心理疾病命名实体识别数据集,并对数据集做预处理;对得到的数据集构建Muti-word Information(MWI)特征;将步骤得到的字向量与得到的MWI特征进行融合,得到加强的字向量;建立BiGRU-CRF深度学习模型;以及,将得到的加强字向量序列输入模型中进行训练,并保存训练好的模型;将微调后的数据和提取的特征进行融合的具体过程包括:对于输入的字符向量序列,每一时刻创建一个前向与后向GRU隐含层单元,每个隐含层单元创建一个门控循环单元,确定状态序列,设置相应的参数;对得到的状态序列进行调整,将三维数组扁平化为二维数组,并计算隐层输出,进而计算状态输出;将计算的状态输出进行调整,由二维数组转换为三维数组;构建并初始化转移矩阵,将上一步转换后得到的三维数组与状态转移矩阵作为CRF函数的输入,采用最大似然估计法计算损失值;以及,进行反向传播,计算预测最优序列标记;
利用训练后的深度学习模型对待处理的心理疾病语料进行预测,将预测得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表,并依据关系类型以及属性类型,分别抽取实体关系和属性数据,进行分别存储。
2.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:获取心理疾病相关已有信息,建立心理疾病语料集的具体过程包括:
根据心理疾病相关书籍设置心理疾病术语种子词集;
根据心理疾病术语种子集,遍历搜索医疗网站中的相关内容,记录相关网页url,存为url集合;
对url集合使用爬虫技术进行网页内容的爬取;
对爬取的网页内容采用正则表达式、xpath解析器进行内容提取,对于非结构化数据存储至数据库中,对于半结构化数据,直接抽取出三元组进行存储,不同的关系类型、不同的属性类型进行区分存储;
对已经处理好的语料进行至少一部分的标注。
3.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:利用语言模型对所述心理疾病语料集中的数据进行微调的具体过程包括:
执行git命令,下载谷歌开源的albert_tiny_google_zh模型;
对心理疾病语料进行处理,将txt文件转换为特定格式的tfrecords文件,得到的tfrecords文件进行预训练;
执行modeling.py函数,加载预训练微调后的ALBERT语言模型,利用所述语言模型对得到的语料进行预训练微调。
4.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:构建心理疾病命名实体识别数据集的具体过程包括:
对已标注数据的每个字符打上标签;
采用一定比例对上述数据生成训练集与验证集;
得到的训练集与验证集构建词语索引文件word2id与id2word;对心理疾病语料构建词频统计词典word_frequency文件;
对训练集、测试集与验证集构建标签索引文件tag2id与id2tag。
5.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:提取所述命名实体识别数据集的特征值的具体过程包括:
对输入序列中的每个字符构建“BMES”四种词集,其中“B”、“M”、“E”、“S”分别代表每个字符在词语中的分割信息;
对于相应字符的“BMES”词集,对照词嵌入查找表,将词集中的词语转为词向量,设置词向量的维度;
采用加权平均算法将每个字符的“BMES”词集进行压缩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学;山东思正信息科技有限公司,未经济南大学;山东思正信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110512846.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种园林电路计算机管理系统
- 下一篇:一种水溶肥分级筛分设备及施肥方法