[发明专利]一种用于医疗文本的聚类方法、系统及装置在审
申请号: | 202111426905.1 | 申请日: | 2021-11-28 |
公开(公告)号: | CN114064904A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 金迪;李征 | 申请(专利权)人: | 河南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 475001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 医疗 文本 方法 系统 装置 | ||
本发明实施例是关于一种用于医疗文本的聚类方法、装置及系统,涉及文本数据挖掘技术领域,该方法包括:获取医疗网站问答部分的医疗标签和文本;通过标签文本来更新分词词库,用更新后的词库对医疗文本进行分词并过滤停用词来构建训练语料;利用所述训练模型对语料进行训练,得到训练后的词向量;获取待聚类医疗文本,对文本进行分词和过滤停用词;用所述聚类模型对待聚类医疗文本进行聚类得到聚类结果。本发明可以实现对医疗文本进行更加准确和具体的分类,还可以自动确定聚类后的类别数量。
技术领域
本发明涉及文本数据挖掘技术领域,具体涉及一种用于医疗文本的聚类方法、系统及装置。
背景技术
在互联网数据大爆炸的时代,各行各业的文本数据都在不断增长。网络中的医疗文本大多以半结构化和非结构化的形式出现,医疗工作者在面对海量的医疗文本时,使用人工去对文本进行处理、分类费时费力。在这种背景下,利用聚类技术对文本数据进行简化分析,将文本分门别类便于医疗工作者在海量的网络信息中查找有用的信息,能够有效的提高医疗工作人员的工作效率。
在医疗领域中,医疗文本具体又可以分为多种类别,其中包括:症状、治疗、检查、病因、护理、预防等等。网络中的大量文章中的类别是鱼龙混杂的,要具体对大量文本进行分类具有极其重要的现实意义。分类明确的文本可以让医生快速的对患者病情做出判断,进行对症下药,极大的提高了医生的工作效率。
文本聚类技术广泛应用于文本挖掘与信息检索等方面,它在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。文本聚类技术的目标是按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不再同一个簇内的数据对象的差异性也尽可能的大。目前常用的聚类技术主要有K-means算法、基于密度的算法(DBSCAN)、基于层次的算法(BIRCH)等。其中K-means算法需要预先设定簇的数量。通常由于文本类型和数量较多,很难准确确定簇的数量,导致聚类结果不准确。BIRCH算法中,由于CF-Tree对每个节点的CF个数有限制,导致聚类的结果可能和真实的类别分布不同。
发明内容
本发明的目的在于提供一种用于医疗文本的聚类方法、系统及装置。以解决上述背景技术中提出的问题。本发明目的为以医疗文本为起点,最终实现对医疗文本数据进行更加具体的分类。
为实现上述目的,本发明提供了一种用于医疗文本的聚类方法,所述方法主要包括。
步骤S100:获取医疗网站问答部分的医疗标签和文本。
步骤S200:通过标签文本来更新分词词库,用更新后的词库对医疗文本进行分词并过滤停用词来构建训练语料。
步骤S300:利用所述训练模型对语料进行训练,得到训练后的词向量。
步骤S400:获取待聚类医疗文本,对文本进行分词和过滤停用词。
步骤S500:用所述聚类模型对待聚类医疗文本进行聚类得到聚类结果。
优选的,所述步骤1中获取医疗专业网站内的问答页面的问题标签作为医疗领域专业词汇,作为自定义词汇在对句子进行分词时使用。
优选的,对读取的医疗文本使用正则表达式来过滤出医疗文本中的中文句子。
优选的,对所述训练语料进行分词和过滤停用词后输入word2vec模型进行训练,保存适用于医疗领域的词向量。
优选的,对待聚类的医疗文本进行预处理,需要对所有文本进行分词并过滤停用词,通过使用上述计算句子中词向量的平均特征矩阵来获取句向量。
优选的,使用DBSCAN聚类方法对带聚类文本进行聚类,通过计算文本的相似度和簇类半径来筛选同类文本。
与方法对应,本发明还提供了一种用于医疗文本的聚类系统,所述系统包括。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111426905.1/2.html,转载请声明来源钻瓜专利网。