[发明专利]文档标签生成及匹配方法、装置和计算机设备有效
申请号: | 202211158183.0 | 申请日: | 2022-09-22 |
公开(公告)号: | CN115687579B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 丘文波 | 申请(专利权)人: | 广州视嵘信息技术有限公司;广州视源电子科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;石良武 |
地址: | 510530 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 标签 生成 匹配 方法 装置 计算机 设备 | ||
本申请属于互联网技术领域,特别涉及一种文档标签生成及匹配方法、装置和计算机设备。该文档标签方法包括:收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本;将所述搜索文本相同,但对应点击的所述文档名称文本不同的记录进行整合,得到第一整合结果;根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串;根据所述最长公共字符串与所述被点击次数,获得所述最长公共字符串中的点击频次最大的最长公共字符串;将所述点击频次最大的最长公共字符串设为标签候选词;将所述标签候选词中的至少一个设为文档标签。上述方法简化了文档标签的创建过程,且提高了用户的搜索意图与文档标签的匹配度。
技术领域
本申请涉及互联网技术领域,具体而言,本申请涉及一种文档标签生成及匹配方法、装置和计算机设备。
背景技术
在垂直领域的内容搜索中,比如学术搜索、社区论坛搜索等,需要给相关的文档打上标签,以便于根据用户的搜索文本快速匹配到用户所需文档,而搜索文本与文档标签的匹配效果也影响着最终的搜索效果。目前,文档标签通常由人工进行编辑设计,因此创建过程比较耗费人力,且在一些情况下用户的搜索意图与文档标签的匹配程度较低。
发明内容
本申请的主要目的为提供一种文档标签生成及匹配方法、装置和计算机设备,旨在解决文档标签创建过程复杂且文档标签与用户搜索意图匹配度较低的技术问题。
为了实现上述发明目的,本申请提供一种文档标签生成方法,包括:
收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本;
将所述搜索文本相同,但对应点击的所述文档名称文本不同的记录进行整合,得到第一整合结果,其中,所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的被点击次数;
根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串;
根据所述最长公共字符串与所述被点击次数,获得所述最长公共字符串中的点击频次最大的最长公共字符串;
将所述点击频次最大的最长公共字符串设为标签候选词,其中,所述标签候选词为至少一个;
将所述标签候选词中的至少一个设为文档标签。
本申请还提供一种文档标签匹配方法,包括:
获取用户输入的搜索文本;
基于文档标签库,为所述搜索文本生成第一标签,其中,所述文档标签库基于如上述实施例提供的文档标签生成方法构建获得,所述第一标签包括至少一个标签词;
基于上述的文档标签库,为每一文档生成第二标签,其中,所述文档存储于文档库中,所述文档库中存储有多个文档供用户搜索得到,所述第二标签包括至少一个标签词;
将所述第一标签与第二标签进行匹配,并将所述第一标签与所述第二标签相同的部分设为有效标签,其中,所述有效标签包括至少一个标签词;
基于所述第一标签与第二标签,依次获得每一所述文档的标签覆盖度得分,其中,所述标签覆盖度得分用于表征所述文档内容与所述搜索文本的匹配程度;
基于所述有效标签,依次获得每一所述文档的标签紧凑度得分,其中,所述标签紧凑度得分用于表征所述有效标签内容在所述文档内容中的位置靠近程度;
根据所述标签覆盖度得分和所述标签紧凑度得分获得每一所述文档的总体标签匹配得分;
将所述总体标签匹配文档进行排序,得到第一排序结果;
根据预设规则及所述第一排序结果,将满足预设规则的所述文档设为与所述搜索文本匹配的文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视嵘信息技术有限公司;广州视源电子科技股份有限公司,未经广州视嵘信息技术有限公司;广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211158183.0/2.html,转载请声明来源钻瓜专利网。