[发明专利]一种通过网络搜索结果的文本分类来分类医学术语的方法在审
申请号: | 202111014513.4 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113688242A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 韦嘉;付宁 | 申请(专利权)人: | 上海基绪康生物科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06F40/216 |
代理公司: | 武汉智新达知识产权代理事务所(特殊普通合伙) 42272 | 代理人: | 邓陶钧 |
地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 网络 搜索 结果 文本 分类 医学 术语 方法 | ||
1.一种通过网络搜索结果的文本分类来分类医学术语的方法,其特征在于,包括以下步骤:
S1、网络搜索和特征生成;
S2、模型训练和术语分类。
2.根据权利要求1所述的一种通过网络搜索结果的文本分类来分类医学术语的方法,其特征在于,所述网络搜索和特征生成包括以下步骤:
(1)首先要准备好待分类的医学术语集,将从真实世界证据中得到的待分类的医学术语随机分成两部分:训练集和分析集;
(2)根据具体的分类要求对训练集中的术语进行人工分类,以引导分类模型更贴合研究需求;
(3)准备好数据集,开始进行网络搜索,需要对整个数据集(包括训练集和分析集)中的每一个术语在所选搜索引擎的主页上单独进行搜索;
(4)得到术语的网络搜索结果,就要开始对搜索结果进行文本分割和统计相关词汇分别在每一次搜索结果中出现的频率,具体的,选用Python第II章节A部分的脚本自动对数据集中的每一个术语进行搜索,并且收集每一次(即每一个术语)搜索结果第一页下所有文摘部分的内容作为该术语的网络搜索结果;
(5)对每个词汇在每次术语搜索(一次只搜索一个术语)结果中出现的频率进行统计,最后对于训练集和分析集,分别得到一个由其中所有术语与所有分割后得到词汇(去掉了非词汇符号)在每一个术语搜索结果中出现频率组成的矩阵。
3.根据权利要求1所述的一种通过网络搜索结果的文本分类来分类医学术语的方法,其特征在于,所述模型训练和术语分类包括以下步骤:
(1)在训练模型之前,先要对训练集的术语—词汇频率矩阵进行去噪,保留其中带特征信息的词汇而去掉那些非特征信息类词汇;
(2)经过特征筛选后,得到维度降低的术语—词汇频率矩阵,并用它去训练分类模型;
(3)在正式开始预测分类之前,还要将分析集的术语—词汇频率矩阵同样进行降维处理;
(4)用训练好的分类模型对降维后的分析集矩阵进行分析从而预测其中术语的类别,最后输出分析集中术语的分类判定结果,完成分类任务。
4.根据权利要求1所述的一种通过网络搜索结果的文本分类来分类医学术语的方法,其特征在于,所述对训练集的术语—词汇频率矩阵进行去噪采用信息增益算法去计算词汇是否具有特征信息,其中,信息增益(InfoGain)的定义如下:
InfoGain(Class,Attribute)=H(Class)-H(Class|Attributes) 【公式一】
其中,H(X)是信息熵(information entropy),其计算公式如下:
H(X)=-∑P(xi)Log[P(xi)] 【公式二】
只有当词汇的信息增益(InfoGain)大于0的时候才被认为是带特征信息的词汇而被保留,否则将被从频率矩阵中删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海基绪康生物科技有限公司,未经上海基绪康生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111014513.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可吸收医用手术线及其制备方法
- 下一篇:一种水利工程施工用安全保护装置