[发明专利]一种基于医疗领域网站的知识图谱构建方法在审
申请号: | 201811388329.4 | 申请日: | 2018-11-21 |
公开(公告)号: | CN109543047A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 王颖;王婷 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/04;G16H50/70 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210032 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗领域 图谱构建 网站 数据源采集 辅助医疗 关系抽取 疾病知识 记忆网络 实体属性 语义搜索 知识融合 语料 预设 图谱 查询 智能 | ||
1.一种基于医疗领域网站的知识图谱构建方法,其特征在于,包括以下步骤:
步骤1:根据预设医疗领域的数据源采集实体、实体属性及语料;选取领域的行业网站作为数据源,从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化数据,从非结构化网页中抽取医疗领域的长文本做为非结构化数据,即语料;
步骤2:基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取实体;具体为,从步骤1中采集的语料中以中文单字为特征,选用word2vec模型进行训练,得到单个字符的嵌入表示(char embedding),以char embedding为特征,将包含待识别实体对的文本进行数字化表示,并输入到BiLSTM模型中进行训练识别,输出实体关系对的结果;
步骤3:知识融合与图谱生成;对步骤1中获取的实体和实体的属性进行冲突校验,依据其来源网站的网站世界排名和出现频次进行知识融合;所述知识融合是指,对冲突的实体对A和实体对B,比较其来源网站的知名度,保留知名度更高网站数据,当知名度无法区分两者,或两者网站知名度相近时,比较实体对A和实体对B在语料中的频次,保留频次更高的实体对,对频次相同或接近的实体对,进行人工校验;
以步骤2中实体关系对的结果为基础,进行实体关系的知识融合,包括:合并重复的实体关系对,对冲突的实体关系进行校验,依据其来源网站的网站世界排名和出现频次,保留网站世界排名最高的数据源中识别出的实体关系对;通过Redis数据库以Key-Value的形式保存实体和实体的属性,通过图数据库Neo4j以Node-Relation-Node的形式保存实体间的关系,两个数据库通过Redis中的键(Key)关联,形成该领域的知识图谱。
2.如权利要求1所述的一种基于医疗领域网站的知识图谱构建方法,其特征在于:所述步骤1中知识图谱为疾病知识图谱;所述疾病知识图谱的概念模型中,定义了四个实体分类,所述实体的分类包括:疾病类、症状类、器官类和常规检查类;所述疾病类的属性包括:名称,别名,定义(即描述),科室,人群,起因,症状表现,传染性,遗传性,预防和保健;所述疾病类包括“并发症”、“后遗症”、“整体-部分”的实体关系;所述症状类的属性包括:名称,别名,预防和保健,急救措施;所述器官类的属性包括:名称,别称,简介,预防和保健;所述常规检查类的属性包括:名称,别名,科室,注意事项;所述不同分类之间的关系为双向关系,包括“疾病-引起-症状”,“症状-体现-疾病”,“疾病-关联-器官”,“器官-关联-疾病”关系;所述结构化数据包括网站中的infobox,表单等,利用网页标签直接抽取领域内的实体、属性名和属性值,将实体作为候选实体保存,属性名和属性值作为候选实体的属性保存,得到实体-属性对,即实体-属性对按照(实体、属性名、属性值)三元组形式保存;所述非结构化数据中,实体关系对的结果按照(实体、关系、实体)的三元组形式保存,其中,BiLSTM模型按照关系概率排序,输出一系列关系及其概率,格式为:
Noi:关系i,概率i,Noi+1:关系i+1,概率i+1……(i表示序号);
选择概率最高的关系1作为实体1和实体2的关系,形成三元组(实体1,关系1,实体2);所述步骤3中对实体属性对及实体关系对进行冲突校验,即对三元组进行冲突校验,并在字符层面对校验后的三元组进行去重。
3.如权利要求2所述的一种基于医疗领域网站的知识图谱构建方法,其特征在于:所述步骤2中的BiLSTM模型经过预先训练,训练集为人工标注的至少5000条标注语料。
4.如权利要求3所述的一种基于医疗领域网站的知识图谱构建方法,其特征在于:所述结构化数据和非结构化数据利用网络定向爬虫采集,所述医疗领域网站为该领域的世界网站排名前二十的网站。
5.如权利要求3所述的一种基于医疗领域网站的知识图谱构建方法,其特征在于:所述步骤2中的训练集为人工标注达到7500条的标注语料。
6.如权利要求4所述的一种基于医疗领域网站的知识图谱构建方法,其特征在于:所述实体关系对的冲突检验转由人工进行校验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811388329.4/1.html,转载请声明来源钻瓜专利网。