[发明专利]一种中医古代文献半监督学习方法和系统在审

申请号：	201810354856.7	申请日：	2018-04-19
公开（公告）号：	CN108549638A	公开（公告）日：	2018-09-18
发明（设计）人：	刘佳琳	申请（专利权）人：	心承智慧（海口）健康科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62;G16H20/90
代理公司：	北京知呱呱知识产权代理有限公司 11577	代理人：	李芙蓉;孙进华
地址：	571129 海南省海口市美兰区***	国省代码：	海南;46
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中医术语中医语料半监督学习文本人工干预速度优势中医病案构建归属学习计算机医学
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种中医古代文献半监督学习方法和系统，所述方法包括：构建中医术语库，所述中医术语库中收录有中医语料；对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记；接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。本发明结合计算机批量处理的速度优势以及人工干预的准确性，使中医病案深度学习的速度和质量都得到保障。

技术领域

本发明涉及中医技术领域，具体涉及一种中医古代文献半监督学习方法和系统。

背景技术

中医文献学是研究中医文献的学术源流，讨论整理和利用中医文献的方法及理论的一门学问。

公开号为CN104933026A的中国专利文献公开了一种中医针灸领域知识自动抽取的实现方法，包括步骤一)种子集构建、步骤二)语料库构建、步骤三)术语构建集的生成、步骤四)候选术语集的生成和步骤五)术语集的生成。该专利针对中医针灸领域文献的特点，研究并开发中医针灸领域术语抽取系统，从海量的中医针灸领域文献中快速有效地提取领域术语，形成结构化的数据并存入一个数据库，供用户查询和使用，填补了中医针灸领域知识自动抽取技术的空白。

公开号为CN106933985A的中国专利文献公开了一种核心方的分析发现方法，涉及中医专科专病、医家以及文献核心方大数据关联性研究技术领域，解决了现有技术基于关联规则的分析方法对于药物之间“关联”的定义较为模糊以及基于聚类的核心方关联研究方法在特征值提取和相似度度量方法上存在较大差异的问题。该核心方的分析发现方法在基于知识图谱的基础上利用深度学习技术赋予每个知识单元个体坐标映射，充分利用距离信息，体现他们之间的关联，可综合关联规则、样品聚类和复杂网络社团发现的优势，并达到上述传统方法不具备的优势，即多尺度知识图谱呈现和知识推理。用户可以自由设定社群数量，在常用药对语义检索、可视化中药社团发现，单味药、基础方关联性研究上有显著的优越性。

中医古代文献有着自己独特的语言结构和分词语料，目前现有的技术为计算机的无监督归纳以及人工识别标引法，单纯的无监督归纳通过设定字符长度以及标点符号断句等方法虽然效率高，但是识别质量差，难以准确的提取病案隐性内容。比如“日月”在中医文献中有时指太阳和月亮，有时指穴位，纯计算机的文字识别难以划分其定义，在医案提取时就会出现字段分类的识别错误。单纯的人为识别标引法如果想得到提取结果则需要消耗大量的时间和人员，并且人员水平的参差不齐会造成文献提取质量的巨大差异。

发明内容

本发明的目的在于提供一种中医古代文献半监督学习方法和系统，用以解决中医古代医案深度学习时无监督学习的不确定性与纯人工监督的繁琐性。

为实现上述目的，本发明提供一种中医古代文献半监督学习方法，所述方法包括：

构建中医术语库，所述中医术语库中收录有中医语料；

对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记；

接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。

可选的，所述中医术语库和深度学习库均包括如下子术语库：

病名类子术语库，用于收录关于病名的术语；

症状类子术语库，用于收录关于症状的术语；

证型类子术语库，用于收录关于证型的术语；

中药类子术语库，用于收录关于中药的术语；

方剂类子术语库，用于收录关于方剂的术语；