[发明专利]推荐文档的方法和装置有效
申请号: | 201910526207.5 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110287288B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 杨天行;彭彬;张一麟;陈曦;杨晨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 推荐 文档 方法 装置 | ||
本申请提供一种推荐文档的方法和装置,该方法包括获取至少一个检索词;获取至少一个检索词中的检索词在各文档中的分值,并根据至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;至少一个检索词中的任一第一检索词在第一文档中的分值是由第一检索词的分值信息确定的,该分值信息包括如下中的至少两项:第一检索词在第一文档中的TF‑IDF、第一检索词在第一文档中的第一分值、第一检索词在第一文档中的第二分值,第一分值与第一文档的正文对应的逻辑关系相关,第二分值与第一文档的正文和第一文档所属的范畴联合对应的逻辑关系相关;第一文档为包括第一检索词的文档。本申请可提高向用户推荐的文档的准确度。
技术领域
本申请实施例涉及计算机技术,尤其涉及一种推荐文档的方法和装置。
背景技术
用户检索文档时,设备可根据检索词在语料库中的文档中的分值,确定为用户推荐的文档;其中,词条的分值表征词条在文档中的重要性,分值越高越重要。
目前,词条在文档中的分值是设备根据词频-逆文档频率(term frequency–inverse document frequency,简称TF-IDF)得到的。其中,词频等同于词条在文档中出现的频率(即词频=词条在文档中出现次数/该文档中的词条总数目)。逆文本频率等于出现某一词条的文档数/文档的总数目。
根据TF-IDF得到的词条在其所在文档中的分值并不能很好的表征词条在文档中的重要性,从而使得在用户检索时,为用户推荐的文档并一定是用户需要的文档,即上述方法推荐文档的准确率较低。
发明内容
本申请实施例提供一种推荐文档的方法和装置,提高了在用户检索时,向用户推荐的文档的准确率。
第一方面,本申请实施例提供一种推荐文档的方法,包括:获取至少一个检索词;获取所述至少一个检索词中的检索词在各文档中的分值,并根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;其中,所述至少一个检索词中的任一第一检索词在第一文档中的分值是由所述第一检索词的分值信息确定的,所述分值信息包括如下中的至少两项:所述第一检索词在所述第一文档中的词频-逆文档频率TF-IDF、所述第一检索词在所述第一文档中的第一分值、所述第一检索词在所述第一文档中的第二分值,所述第一分值与所述第一文档的正文对应的逻辑关系相关,所述第二分值与所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系相关;所述第一文档为包括所述第一检索词的文档。
本方案中检索词的分值与检索词所在的文档的正文对应的逻辑关系和/或该文档的正文和该文档所属的范畴联合对应的逻辑关系相关,使得检索词的分值可以很好的表征或指示检索词在该文档中的重要性。因此,确定的向用户推荐文档中包括用户想要的文档的概率就较高,即本方案中向用户推荐文档的准确率比较高。
结合第一方面,在第一方面的一种可能的实现方式中,在根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档之前,还包括:根据所述第一文档,得到多个词条,所述多个词条中包括所述第一检索词;获取所述多个词条中的词条的分值信息;根据所述多个词条中的词条的分值信息,确定所述多个词条中的词条在所述第一文档中的分值。
本方案提供了获取词条在文档中分值的具体实现。
结合第一方面,在第一方面的一种可能的实现方式中,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第一分值;则获取所述多个词条中的词条的分值信息,包括:将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值;其中,所述第一机器学习模型是根据多个第一训练样本和所述多个第一训练样本各自的标签得到的,对于多个第一训练样本中的任一第一训练样本,该第一训练样本包括根据第一训练文档的正文得到的多个第一训练词条,该第一训练样本的标签用于指示所述多个第一训练词条各自的分值,所述多个第一训练词条各自的分值与所述第一训练文档对应的逻辑关系相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910526207.5/2.html,转载请声明来源钻瓜专利网。