[发明专利]一种通过网络搜索结果的文本分类来分类医学术语的方法在审

专利信息
申请号: 202111014513.4 申请日: 2021-08-31
公开(公告)号: CN113688242A 公开(公告)日: 2021-11-23
发明(设计)人: 韦嘉;付宁 申请(专利权)人: 上海基绪康生物科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/953;G06F40/216
代理公司: 武汉智新达知识产权代理事务所(特殊普通合伙) 42272 代理人: 邓陶钧
地址: 200000 上海市浦东新区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 通过 网络 搜索 结果 文本 分类 医学 术语 方法
【说明书】:

发明涉及一种通过网络搜索结果的文本分类来分类医学术语的方法,包括以下步骤:S1、网络搜索和特征生成,通过对待分类术语在常见搜索引擎中的搜索结果进行文本分割,以采集其中术语相关的描述性词汇;2)模型训练和术语分类,利用采集的特征和机器学习算法建立模型进行术语分类。该方法的实施过程较容易被研究者掌控使之完全符合研究设计的要求,并且需要分类的程度和范围也不受预先定义类别的限制,只需要很少的先验知识就能帮助真实世界研究证据中的非正规术语进行实时分类,为临床研究者们节省时间的同时也提供了一种可靠识别重要分类信息的方法,更为临床研究机构提供了一种经济高效的研究途径。

技术领域

本发明涉及医学分类识别技术领域,具体为一种通过网络搜索结果的文本分类来分类医学术语的方法。

背景技术

以真实世界证据(RWE)为基础的研究近年来受到持续的关注,它被认为是一种能为研究者们提供真实背景信息的强有力的研究方式,同时,广泛建立起来的电子病历系统也为研究者们获得大量真实病例信息提供了可能,然而在大多数情况下,真实病历中的重要临床信息往往被包含在自由文本中,并且所用的词汇大多是非标准的或者与研究者的设计要求不符,使得以这些真实信息为基础的研究变得困难,比如,从临床数据分析的角度来看,不但要知道一名患者使用什么药物,更重要的是知道这些药物的适应症以及它们的分类,这样的问题在真实世界证据为基础的研究中经常出现。

此外,在很多非英语地区,医学词汇和体系还没有发展和整理完善,用于该区域语言的自然语言处理(NLP)技术也较为滞后,尤其是在处理中文临床术语时,会面临更多挑战:一方面因为中文是以汉字为基础的语言,词汇之间没有明显的边界;另一方面,中文很容易被错误拼写或者被写成正规词汇的变体,然而要枚举某正规医学术语的所有变体形式几乎不可能,因为一个医学术语一般包含至少三个以上汉字,而每一个汉字又至少有十种以上的变体,从而进一步突显了中文临床信息研究中医学术语分类识别的问题。

尽管中文为代表的其他非英语文本解析如此复杂,一些在线的搜索引擎,比如谷歌和百度,却处理得很不错,除了使用传统的自然语言处理方法,它们还采用了一些新的策略,例如创建大量名称实体数据库,建立语义网络或使用深度学习方法来帮助不断提高搜索引擎性能并从用户输入中持续学习等,此类技术可确保即使在有拼写错误或变体存在的情况下,搜索引擎会推测搜索人员的真实意思,输出需要的搜索结果,这些方法虽然代表了解决NLP问题更系统全面的方法,但却需要大量的资源储备,大多数研究机构和医院都不具备能满足所有RWE研究需求的技术和资源,所以研究屏障依然存在。

针对这一问题,这里提出了一种有效又灵活的框架模式,即利用在线搜索引擎去搜索要分类的词汇术语,再根据搜索结果对这些词汇术语进行给定级别上的动态分类,因为具有类似搜索结果的术语很可能属于同一类,那么如何做到自动分类?以往的一些研究已经指出机器学习算法可以很好的进行文本分类,所以也同样适用于对搜索结果这样的文本进行分类,但之前研究的分类方法大多是针对英语文本设计并且主要关注有限的几个预先设定的分类,对中文RWE文本的适用性不强,此外,处理RWE文本的分类方法还需要具有较高的灵活性,主要体现在以下三个方面:

1)不同的研究目的往往要求不同的分类方式和程度,分类方法需要做到因事制宜;

2)上层类别的分类比较容易,电子病历系统的分级结构往往能够提供这种信息,但将上层类别继续下分,分类越细面临的问题就越多,分类方法需要在递增的挑战面前维持稳定;

3)待处理的医学术语会因为地域,医院甚至管理系统的不同而具有不同的偏好性,分类方法还需要针对具体研究对象做到因时因地制宜。

针对这些问题和特点,这里进一步提出一种通过网络搜索结果的文本分类来分类医学术语的方法以达到对RWE研究中的医学术语进行动态分类的结果。

发明内容

(一)解决的技术问题

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海基绪康生物科技有限公司,未经上海基绪康生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111014513.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top