[发明专利]一种基于医疗领域网站的知识图谱构建方法在审

申请号：	201811388329.4	申请日：	2018-11-21
公开（公告）号：	CN109543047A	公开（公告）日：	2019-03-29
发明（设计）人：	王颖;王婷	申请（专利权）人：	焦点科技股份有限公司
主分类号：	G06F16/36	分类号：	G06F16/36;G06N3/04;G16H50/70
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	陈建和
地址：	210032 江苏省南京***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于医疗领域网站的知识图谱构建方法，其特征在于，包括步骤1：根据预设医疗领域的数据源采集实体、实体属性及语料；步骤2：基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取；步骤3：知识融合与图谱生成。达到在知识层面提供有效、完备、可靠的疾病知识；辅助医疗领域内的智能问答和领域内语义搜索和查询理解的有益效果。
搜索关键词：	医疗领域图谱构建网站数据源采集辅助医疗关系抽取疾病知识记忆网络实体属性语义搜索知识融合语料预设图谱查询智能
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于医疗领域网站的知识图谱构建方法，其特征在于，包括以下步骤：步骤1：根据预设医疗领域的数据源采集实体、实体属性及语料；选取领域的行业网站作为数据源，从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化数据，从非结构化网页中抽取医疗领域的长文本做为非结构化数据，即语料；步骤2：基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取实体；具体为，从步骤1中采集的语料中以中文单字为特征，选用word2vec模型进行训练，得到单个字符的嵌入表示(char embedding)，以char embedding为特征，将包含待识别实体对的文本进行数字化表示，并输入到BiLSTM模型中进行训练识别，输出实体关系对的结果；步骤3：知识融合与图谱生成；对步骤1中获取的实体和实体的属性进行冲突校验，依据其来源网站的网站世界排名和出现频次进行知识融合；所述知识融合是指，对冲突的实体对A和实体对B，比较其来源网站的知名度，保留知名度更高网站数据，当知名度无法区分两者，或两者网站知名度相近时，比较实体对A和实体对B在语料中的频次，保留频次更高的实体对，对频次相同或接近的实体对，进行人工校验；以步骤2中实体关系对的结果为基础，进行实体关系的知识融合，包括：合并重复的实体关系对，对冲突的实体关系进行校验，依据其来源网站的网站世界排名和出现频次，保留网站世界排名最高的数据源中识别出的实体关系对；通过Redis数据库以Key‑Value的形式保存实体和实体的属性，通过图数据库Neo4j以Node‑Relation‑Node的形式保存实体间的关系，两个数据库通过Redis中的键(Key)关联，形成该领域的知识图谱。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司，未经焦点科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811388329.4/，转载请声明来源钻瓜专利网。

上一篇：一种基于深度学习的机器人数据互操作领域本体构建方法
下一篇：一种笔记生成方法及终端设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于医疗领域网站的知识图谱构建方法在审

专利文献下载