[发明专利]一种生物医学文献搜索排序方法及装置在审
申请号: | 201910980643.X | 申请日: | 2019-10-16 |
公开(公告)号: | CN112667571A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 郭敏;裴健新;余晴;于雪 | 申请(专利权)人: | 康码芯(上海)智能科技有限公司 |
主分类号: | G06F16/14 | 分类号: | G06F16/14;G06Q10/06;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201321 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生物医学 文献 搜索 排序 方法 装置 | ||
1.一种生物医学文献搜索排序方法,其特征在于,包括:
获取用户输入的查询内容;
对所述查询内容进行预处理,获取至少包含一个搜索词的搜索词集;
在指定的数据搜索平台搜索所述搜索词集,获取与所述搜索词集相关的相关医学文献;
对所述相关医学文献按照相关性从高到低进行粗排序;
在粗排序后的相关医学文献中,提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献;
将所述目标医学文献输入训练好的优化排序模型进行优化排序,输出优化排序后的目标医学文献;
将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。
2.根据权利要求1所述的一种生物医学文献搜索排序方法,其特征在于,所述对所述相关医学文献按照相关性从高到低进行粗排序具体包括:
计算所述搜索词集中的每个搜索词的逆文本频率指数、词频;当前需要评分的文献的长度及全部文献的平均长度;
按照下述公式计算对所述相关医学文献进行评分,并按照评分的大小对所述相关医学文献进行排序:
其中,参数d为所述相关医学文献中当前需要评分的评分文献,q为搜索词集,score(d,q)为针对所述搜索词集q,所述评分文献d的排序得分;
t为所述搜索词集中的单个搜索词;
TFt为搜索词t的词频;
IDFt为搜索词t的逆文本频率指数;
dl为当前需要评分的文献d的长度;
avdl为包含所述搜索词集中的搜索词t的所有相关医学文献的平均长度;
k1为自由调节参数、b为自由调节参数。
3.根据权利要求1所述的一种生物医学文献搜索排序方法,其特征在于,还包括:
训练所述优化排序模型;具体包括:
获取训练样本数据,所述训练样本数据包括生物医学文献及其搜索、点击数据;
提取所述训练样本数据的特征,并对所述训练样本数据进行标签处理;
将标签处理后的训练样本数据按照预设的比例划分为训练集、测试集和验证集;
调用指定的机器学习库中的排序模型,设置所述排序模型的学习参数;
加载所述训练集、测试集对初始训练模型进行训练;
根据预设的衡量排序质量的评价指标,采用所述验证集中的训练样本数据对训练后的模型进行验证测试;
将验证测试通过的模型作为训练好的优化排序模型。
4.根据权利要求3所述的一种生物医学文献搜索排序方法,其特征在于,所述提取所述训练样本数据的特征具体包括:
提取所述训练样本数据中的医学文献的基本信息、停用词信息、所述搜索词集中的搜索词在所述医学文献的指定域出现的参数信息、及流量信息;其中,所述医学文献的流量信息包括:所述医学文献的点击数、收藏数、点赞数之中的任意一个或多个。
5.根据权利要求3所述的一种生物医学文献搜索排序方法,其特征在于,所述对所述训练样本数据进行标签处理具体包括:
根据所述训练样本数据中的搜索点击数据,计算所述训练样本数据中用户搜索的相关医学文献的相关度得分;
按照所述训练样本数据中的相关医学文献的相关度得分的高低进行排序,并排序结果作为黄金标准;
根据所述黄金标准,将所述训练样本数据中用户搜索获得的各医学文献分为几个档次,并设以对应的标签。
6.根据权利要求5所述的一种生物医学文献搜索排序方法,其特征在于,根据所述黄金标准,将所述训练样本数据中用户搜索获得的各医学文献分为几个档次,并设以对应的标签。具体包括:
在所述训练样本数据中用户搜索获得的各医学文献中,若所述医学文献处于所述黄金标准中排序前10的医学文献,则设置所述医学文献的标签设置为12减去其搜索排序号的值;
若所述医学文献处于所述黄金标准中排序10至20之间的医学文献,则设置所述医学文献的标签设置为2;
若所述医学文献处于所述黄金标准中排序大于20的医学文献,则设置所述医学文献的标签设置为1;
若所述医学文献不在所述黄金标准中,则设置所述医学文献的标签设置为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康码芯(上海)智能科技有限公司,未经康码芯(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910980643.X/1.html,转载请声明来源钻瓜专利网。