[发明专利]一种基于医疗领域网站的知识图谱构建方法在审
申请号: | 201811388329.4 | 申请日: | 2018-11-21 |
公开(公告)号: | CN109543047A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 王颖;王婷 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/04;G16H50/70 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210032 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于医疗领域网站的知识图谱构建方法,其特征在于,包括步骤1:根据预设医疗领域的数据源采集实体、实体属性及语料;步骤2:基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取;步骤3:知识融合与图谱生成。达到在知识层面提供有效、完备、可靠的疾病知识;辅助医疗领域内的智能问答和领域内语义搜索和查询理解的有益效果。 | ||
搜索关键词: | 医疗领域 图谱构建 网站 数据源采集 辅助医疗 关系抽取 疾病知识 记忆网络 实体属性 语义搜索 知识融合 语料 预设 图谱 查询 智能 | ||
【主权项】:
1.一种基于医疗领域网站的知识图谱构建方法,其特征在于,包括以下步骤:步骤1:根据预设医疗领域的数据源采集实体、实体属性及语料;选取领域的行业网站作为数据源,从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化数据,从非结构化网页中抽取医疗领域的长文本做为非结构化数据,即语料;步骤2:基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取实体;具体为,从步骤1中采集的语料中以中文单字为特征,选用word2vec模型进行训练,得到单个字符的嵌入表示(char embedding),以char embedding为特征,将包含待识别实体对的文本进行数字化表示,并输入到BiLSTM模型中进行训练识别,输出实体关系对的结果;步骤3:知识融合与图谱生成;对步骤1中获取的实体和实体的属性进行冲突校验,依据其来源网站的网站世界排名和出现频次进行知识融合;所述知识融合是指,对冲突的实体对A和实体对B,比较其来源网站的知名度,保留知名度更高网站数据,当知名度无法区分两者,或两者网站知名度相近时,比较实体对A和实体对B在语料中的频次,保留频次更高的实体对,对频次相同或接近的实体对,进行人工校验;以步骤2中实体关系对的结果为基础,进行实体关系的知识融合,包括:合并重复的实体关系对,对冲突的实体关系进行校验,依据其来源网站的网站世界排名和出现频次,保留网站世界排名最高的数据源中识别出的实体关系对;通过Redis数据库以Key‑Value的形式保存实体和实体的属性,通过图数据库Neo4j以Node‑Relation‑Node的形式保存实体间的关系,两个数据库通过Redis中的键(Key)关联,形成该领域的知识图谱。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811388329.4/,转载请声明来源钻瓜专利网。