首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种通过网络搜索结果的文本分类来分类医学术语的方法在审

申请号：	202111014513.4	申请日：	2021-08-31
公开（公告）号：	CN113688242A	公开（公告）日：	2021-11-23
发明（设计）人：	韦嘉;付宁	申请（专利权）人：	上海基绪康生物科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/953;G06F40/216
代理公司：	武汉智新达知识产权代理事务所(特殊普通合伙) 42272	代理人：	邓陶钧
地址：	200000 上海市浦东新区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通过网络搜索结果文本分类医学术语方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种通过网络搜索结果的文本分类来分类医学术语的方法，其特征在于，包括以下步骤：

S1、网络搜索和特征生成；

S2、模型训练和术语分类。

2.根据权利要求1所述的一种通过网络搜索结果的文本分类来分类医学术语的方法，其特征在于，所述网络搜索和特征生成包括以下步骤：

(1)首先要准备好待分类的医学术语集，将从真实世界证据中得到的待分类的医学术语随机分成两部分：训练集和分析集；

(2)根据具体的分类要求对训练集中的术语进行人工分类，以引导分类模型更贴合研究需求；

(3)准备好数据集，开始进行网络搜索，需要对整个数据集(包括训练集和分析集)中的每一个术语在所选搜索引擎的主页上单独进行搜索；

(4)得到术语的网络搜索结果，就要开始对搜索结果进行文本分割和统计相关词汇分别在每一次搜索结果中出现的频率，具体的，选用Python第II章节A部分的脚本自动对数据集中的每一个术语进行搜索，并且收集每一次(即每一个术语)搜索结果第一页下所有文摘部分的内容作为该术语的网络搜索结果；

(5)对每个词汇在每次术语搜索(一次只搜索一个术语)结果中出现的频率进行统计，最后对于训练集和分析集，分别得到一个由其中所有术语与所有分割后得到词汇(去掉了非词汇符号)在每一个术语搜索结果中出现频率组成的矩阵。

3.根据权利要求1所述的一种通过网络搜索结果的文本分类来分类医学术语的方法，其特征在于，所述模型训练和术语分类包括以下步骤：

(1)在训练模型之前，先要对训练集的术语—词汇频率矩阵进行去噪，保留其中带特征信息的词汇而去掉那些非特征信息类词汇；

(2)经过特征筛选后，得到维度降低的术语—词汇频率矩阵，并用它去训练分类模型；

(3)在正式开始预测分类之前，还要将分析集的术语—词汇频率矩阵同样进行降维处理；

(4)用训练好的分类模型对降维后的分析集矩阵进行分析从而预测其中术语的类别，最后输出分析集中术语的分类判定结果，完成分类任务。

4.根据权利要求1所述的一种通过网络搜索结果的文本分类来分类医学术语的方法，其特征在于，所述对训练集的术语—词汇频率矩阵进行去噪采用信息增益算法去计算词汇是否具有特征信息，其中，信息增益(InfoGain)的定义如下：

InfoGain(Class,Attribute)＝H(Class)-H(Class|Attributes) 【公式一】

其中，H(X)是信息熵(information entropy)，其计算公式如下：

H(X)＝-∑P(xi)Log[P(xi)] 【公式二】

只有当词汇的信息增益(InfoGain)大于0的时候才被认为是带特征信息的词汇而被保留，否则将被从频率矩阵中删除。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海基绪康生物科技有限公司，未经上海基绪康生物科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111014513.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种可吸收医用手术线及其制备方法
下一篇：一种水利工程施工用安全保护装置

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top