[发明专利]基于图谱标签降噪的素材推荐方法及系统在审

专利信息
申请号: 202011636614.0 申请日: 2020-12-31
公开(公告)号: CN112612965A 公开(公告)日: 2021-04-06
发明(设计)人: 陈嘉真;孙泽懿;张琛 申请(专利权)人: 上海明略人工智能(集团)有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/9536;G06F16/36;G06F16/38;G06F16/35;G06F16/33;G06Q50/00
代理公司: 青岛清泰联信知识产权代理有限公司 37256 代理人: 李红岩
地址: 200030 上海市徐汇区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 图谱 标签 素材 推荐 方法 系统
【说明书】:

本申请公开了一种基于图谱标签降噪的素材推荐方法及系统,素材推荐方法包括:预处理步骤:从用户的搜索内容中抽取关键词并对所述关键词进行处理;匹配步骤:根据处理后的所述关键词与知识图谱中的节点进行匹配;抽取步骤:抽取匹配后的节点子图,并通过Louvain算法对所述节点子图进行聚类,根据聚类结果输出搜索结果;输出步骤:通过下游模型对所述搜索结果进行排序和推荐。本发明的降噪方式可以很大程度上减少图谱中的标签噪声,使得通过图谱做索引的文章相关度更高,同时在性能上有很大帮助,并且可视化效果也很好,从而提高了用户体验。

技术领域

本发明属于基于图谱标签降噪的素材推荐的方法领域,具体涉及一种基于图谱标签降噪的素材推荐方法及系统。

背景技术

传统的搜索引擎,在一定程度上解决了用户从互联网中获取信息的难题,但由于它们是基于关键词或字符串的,并没有对查询的目标和用户的查询输入进行理解。因此,它们在搜索准确度方面存在明显的欠缺。

运用了知识图谱的智能搜索引擎可以返回更加精准的结果。然而构造和应用领域知识图谱,依然面临着各种挑战和难题。一个比较麻烦的问题是构造知识图谱,我们需要对图谱进行大量人工的打标,但是很多人打标的方式不一样,造成打标的结果也参差不齐。打标质量太差会造成大量的标签不具有实际意义,歧义很多,也会带来很多噪声。因为我们在搜索时大部分时候是通过匹配搜索内容和标签,然后根据标签再去找相似的素材等等,那么标签的质量就很重要了。

现有的方法:

我们在使用图谱进行素材搜索时,会首先根据用户搜索信息抽取关键词,然后将关键词和图谱中的标签节点进行映射,然后通过该节点去找相关的热门素材。然而这个方法的最大问题是,如果标签里面噪声太多,并不能很好的代表素材的含义,那么搜索出来的东西也没有实际价值。

解决方案:

通过Louvain算法根据搜索的关键词所构建的邻接图进行社区聚类,找到对应关键词的重要topic节点,然后根据这些节点做素材索引。

现有的方法:

我们在做素材搜索时,会首先根据用户对话抽取关键词,然后将关键词和图谱中的标签节点进行映射,最后通过该节点的周边信息去找相关的热门素材。然而这个方法的最大问题是,如果标签里面噪声太多,并不能很好的代表素材的含义,那么搜索出来的东西也没有实际价值。

发明内容

本申请实施例提供了一种基于图谱标签降噪的素材推荐方法,以至少解决相关技术中主观因素影响的问题。

本发明提供了一种基于图谱标签降噪的素材推荐方法,其中,包括:

预处理步骤:从用户的搜索内容中抽取关键词并对所述关键词进行处理;

匹配步骤:根据处理后的所述关键词与知识图谱中的节点进行匹配;

抽取步骤:抽取匹配后的节点子图,并通过Louvain算法对所述节点子图进行聚类,根据聚类结果输出搜索结果;

输出步骤:通过下游模型对所述搜索结果进行排序和推荐。

上述素材推荐方法,其中,所述预处理步骤包括:

关键词抽取步骤:通过算法从所述搜索内容中进行关键词抽取获得所述关键词;

消歧步骤:通过算法计算所述关键词和所述知识图谱的中节点的相关度。

上述素材推荐方法,其中,所述匹配步骤包括:

根据所述相关度将所述关键词和所述知识图谱中的节点建立映射关系。

上述素材推荐方法,其中,所述抽取步骤包括:

节点子图抽取步骤:根据所述映射关系抽取所述知识图谱中的节点周围的所述子图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011636614.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top