[发明专利]一种构建乳腺超声领域本体的方法有效
申请号: | 201910506556.0 | 申请日: | 2019-06-12 |
公开(公告)号: | CN110263336B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 陈德华;刘淑君;乐嘉锦;张敬谊;王晔;张鑫金 | 申请(专利权)人: | 东华大学;万达信息股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30;G06F40/242;G06N3/0442;G06N3/047;G06N3/045;G06N3/08 |
代理公司: | 上海泰能知识产权代理事务所(普通合伙) 31233 | 代理人: | 宋缨;钱文斌 |
地址: | 201620 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 乳腺 超声 领域 本体 方法 | ||
1.一种构建乳腺超声领域本体的方法,其特征在于,包括以下步骤:
(1)对乳腺超声文本数据进行预处理;
(2)对预处理后的乳腺超声文本数据中的句子进行实体词的识别,并根据实体关系抽取算法获取实体关系三元组;具体包括:
(21)通过深度学习和统计机器学习的方法,将条件随机场模型和双向长短记忆循环神经网络结合,抽取出预处理后的乳腺超声文本数据中的实体;其中,实体包括组织实体、指标实体和指标值实体;
(22)通过定义组织实体与指标实体、指标实体与指标值实体之间的关系类型,设计关系抽取算法,根据规则得到实体关系三元组;其中的规则为:
(a)如果短句中存在组织实体E1和指标实体E2,则组织实体E1和指标实体E2形成实体关系三元组G(E1,E2,attributeOf),其中,attributeOf表示指标关系;
(b)如果短句中存在指标实体E1和指标值实体E2,则指标实体E1和指标值实体E2形成实体关系三元组G(E1,E2,valueOf),其中,valueOf表示指标值关系;
(c)如果该短句不存在组织实体,则选取上一短句中的组织实体作为该短句的组织实体;
(d)如果该短句不存在指标实体,则选取上一短句中的指标实体作为该短句的指标实体;
(3)将得到的实体关系三元组添加到乳腺超声领域本体的基础框架对应的节点下得到乳腺超声领域本体。
2.根据权利要求1所述的构建乳腺超声领域本体的方法,其特征在于,所述步骤(1)包括以下子步骤:
(11)构建乳腺医学自定义词典,并使用该自定义词典对超声文本数据进行中文分词;
(12)针对乳腺超声文本数据中的同义词,采用Word2Vec模型,使用词向量表征词特征,构建同义词表,用出现频率最高的词替换超声文本数据中的其它同义词;
(13)根据乳腺病理学和解剖学的先验知识,获取乳腺超声领域本体的基础框架,对乳腺超声文本数据进行切分处理,并以切分后的文本描述块做为下一阶段的处理单位。
3.根据权利要求1所述的构建乳腺超声领域本体的方法,其特征在于,所述步骤(21)中采用BIO经典标注法对训练集按字标注,使用Bi-LSTM-CRF模型进行训练,对预处理后的乳腺超声文本数据中的实体词进行识别。
4.根据权利要求1所述的构建乳腺超声领域本体的方法,其特征在于,所述步骤(3)中将得到的实体关系三元组添加到乳腺超声领域本体的基础框架对应的节点下时,先添加含有指标关系的实体信息,再添加含有指标值关系的实体信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学;万达信息股份有限公司,未经东华大学;万达信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910506556.0/1.html,转载请声明来源钻瓜专利网。