[发明专利]一种基于词向量发现单味药与疾病之间的治疗关系的方法有效
申请号: | 201510027487.7 | 申请日: | 2015-01-20 |
公开(公告)号: | CN104572624B | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 张引;魏宝刚;庄越挺;黎磊;姚亮 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于词向量的单味药与疾病之间的治疗关系的发现方法。首先需要选择训练集,本发明采用《中华本草》书籍中8980味药作为治疗关系的主体,对于其主治描述提取疾病概念,作为治疗关系的客体,形成“药、治疗、疾病”的三元组,其次采用Google公布的Word2Vec工具作为词向量训练工具,百度百科资源作为训练语料,最后利用训练得到的词向量利用SVM训练出所需要的模型。输入单味药和疾病,该模型可以判断二者是否具有治疗关系。 | ||
搜索关键词: | 一种 基于 向量 发现 单味药 疾病 之间 治疗 关系 方法 | ||
【主权项】:
一种基于词向量的单味药与疾病之间的治疗关系的发现方法,其特征在于,包括以下步骤:(1)对《中华本草》进行OCR处理,提取其主治属性;(2)对主治属性进行三次预处理,第一次预处理按照标点符号分割,得到第一次候选集;第二次预处理将第一次得到的候选集中的所有词汇作为关键字访问百度百科、互动百科以及维基百科,若三者其一包含该关键字的页面,即认为该关键字是某种疾病,加入到疾病集合中,否则加入第二次候选集中;第三次预处理首先利用语法分析器对第二次候选集的词汇进行语法分析,找出结果为形容词+名词的形式,将其名词部分作为关键字访问百度百科、互动百科以及维基百科,若三者其一包含该关键字的页面,即认为该形容词+名词是某种疾病的具体形式,同样加入到疾病集合中,其余的单词做舍弃处理;经过三次预处理,构造出药与疾病的治疗关系三元组;(3)将百度百科、互动百科以及维基百科数据利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤掉无用词项,所述无用词项包括停用词、介词和数量词,构建词向量的训练集;利用google的开源工具Word2Vec构造出词向量矩阵,即对每一个单词,用一个向量来表示;(4)针对步骤(3)得到的三元组,找出药和疾病分别对应的词向量,按照单味药向量减去疾病向量的方式构造治疗关系的词向量;(5)将步骤(4)构造的治疗关系词向量作为训练元组,其向量维数作为SVM的特征空间,利用SVM进行训练,得到训练模型;(6)输入单味药和疾病,在步骤(3)构造的词向量矩阵中找到单味药和疾病分别对应的词向量,用单味药的词向量减去疾病的词向量得到关系向量作为步骤(5)训练出的模型的输入,根据训练模型输出结果判断二者是否含有治疗关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510027487.7/,转载请声明来源钻瓜专利网。