[发明专利]一种生物医学文献搜索排序方法及装置在审
申请号: | 201910980643.X | 申请日: | 2019-10-16 |
公开(公告)号: | CN112667571A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 郭敏;裴健新;余晴;于雪 | 申请(专利权)人: | 康码芯(上海)智能科技有限公司 |
主分类号: | G06F16/14 | 分类号: | G06F16/14;G06Q10/06;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201321 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生物医学 文献 搜索 排序 方法 装置 | ||
本发明公开了一种生物医学文献搜索排序方法及装置,其方法包括:获取用户输入的查询内容;对查询内容进行预处理,获取至少包含一个搜索词的搜索词集;在指定的数据搜索平台搜索该搜索词集,获取相关医学文献;对该相关医学文献按照相关性从高到低进行粗排序;在粗排序后的相关医学文献中,提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献;将目标医学文献输入训练好的优化排序模型进行优化排序,输出优化排序后的目标医学文献;将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。通过本发明,可更加精准的进行搜索排序,向用户展示用户想要获取的搜索查询的相关内容,大大提升了用户体验。
技术领域
本发明涉及数据搜索领域,尤其涉及一种生物医学文献搜索排序方法及装置。
背景技术
随着生物医学文献大数据增多,用户对生物医学大数据的搜索需求也随着具体的生物问题的不同需求而增长,针对查询检索最相关的文章越来越有挑战性。用户查询要求越来越高,不仅要求搜索速度的快速,而且要求搜索出的文献前后排序更好,能够很快的找到所需要的信息。
现有的生物医学搜索排序技术,在信息检索中,BM25(BM代表最佳匹配)是一种用来评价搜索词和文献之间相关性的算法。它基于20世纪70年代和80年代由StephenE.Robertson,和其他人开发的概率检索框架。BM25F是典型BM25的改进算法,BM25在计算相关性时把文献当做整体来考虑,但随着搜索技术的发展,文献慢慢的被结构化数据所代替,每个文献都会被切分成多个独立的域,尤其是垂直化的搜索。比如网页有可能被切分成标题,内容,主题词等域,这些域对文章主题的权重不能同等对待,所以权重就要有所偏重,BM25没有考虑这点,所以BM25F在此基础上做了一些改进,就是不再单单的将单词作为个体考虑,而且将文献也按照field划分为个体考虑。在BM25F算法中,文献所得的分数越大,表明这个文献越相关,而且只有搜索词里的字符都包含时才可以,现阶段生物医学文献查询,基本基于文献的一些因素,例如标题,文本等,就会产生这样的结果,例如有的文献可能有关,但是当你把它放在前面时,用户没有点击去看,不是用户最想看到的,使搜索排序没有达到一个比较好的排序效果,直接推送给用户,影响到用户的搜索结果,降低了用户的体验。
发明内容
为解决上述技术问题,本发明提供一种生物医学文献搜索排序方法及装置,具体的,本发明的技术方案如下:
一方面,本发明公开了一种生物医学文献搜索排序方法,包括:获取用户输入的查询内容;对所述查询内容进行预处理,获取至少包含一个搜索词的搜索词集;在指定的数据搜索平台搜索所述搜索词集,获取与所述搜索词集相关的相关医学文献;对所述相关医学文献按照相关性从高到低进行粗排序;在粗排序后的相关医学文献中,提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献;将所述目标医学文献输入训练好的优化排序模型进行优化排序,输出优化排序后的目标医学文献;将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。
优选地,所述对所述相关医学文献按照相关性从高到低进行粗排序具体包括:计算所述搜索词集中的每个搜索词的逆文本频率指数、词频;当前需要评分的文献的长度及全部文献的平均长度;按照下述公式计算对所述相关医学文献进行评分,并按照评分的大小对所述相关医学文献进行排序:
其中,参数d为所述相关医学文献中当前需要评分的评分文献,q为搜索词集,score(d,q)为针对所述搜索词集q,所述评分文献d的排序得分;t为所述搜索词集中的单个搜索词;TFt为搜索词t的词频;IDFt为搜索词t的逆文本频率指数;dl为当前需要评分的文献d的长度;avdl为包含所述搜索词集中的搜索词t的所有相关医学文献的平均长度;k1为自由调节参数、b为自由调节参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康码芯(上海)智能科技有限公司,未经康码芯(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910980643.X/2.html,转载请声明来源钻瓜专利网。