[发明专利]话题评分方法、装置、服务器及计算机可读存储介质在审
申请号: | 202210092831.0 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114417867A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 姚晓远;张炫;杭江南;颜杰;钟剑哲;未波波;罗欢 | 申请(专利权)人: | 上海喜马拉雅科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 杜杨 |
地址: | 201100 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 评分 方法 装置 服务器 计算机 可读 存储 介质 | ||
本发明实施例提出一种话题评分方法、装置、服务器及计算机可读存储介质,属于数据处理技术领域,方法包括:获取待评分的话题文本,对话题文本进行预处理,得到话题列表,利用预设的词向量生成模型,生成话题列表中的每个话题词的话题向量,根据所有话题向量,计算出包含所有话题向量的最小球,将最小球的半径作为广度评分,通过计算最小球能够考虑各个话题词之间的差异性,从而能够更为客观地反应话题的真实广度。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种话题评分方法、装置、服务器及计算机可读存储介质。
背景技术
播客应用是一种播放音频或视频的应用软件,用户既能收听他人录制上传的音视频节目,也可以将自己录制的音视频节目上传至播客上进行分享。随着播客应用的普及和商用化,网络上的播客话题(即播客内容)越来越多。一般的,播客应用对播客内容进行理解和质量评分之后,才能根据评分结果进行搜索或推荐。
目前,通常抽取播客内容话题文本的话题或关键词之后,对抽取的话题或关键词进行评分,并将评分结果作为播客内容的质量评分结果。但是,这种评分方法存在难以反应出话题广度质量的问题。
发明内容
有鉴于此,本发明的目的在于提供一种话题评分方法、装置、服务器及计算机可读存储介质,其能够改善现有的话题评分方法存在的难以反应出话题广度质量的问题。
为了实现上述目的,本发明实施例采用的技术方案如下。
第一方面,本发明实施例提供一种话题评分方法,采用如下的技术方案。
一种话题评分方法,所述方法包括:
获取待评分的话题文本;
对所述话题文本进行预处理,得到话题列表,所述话题列表包括所述话题文本的多个话题词;
利用预设的词向量生成模型,生成所述话题列表中的每个所述话题词的话题向量;
根据所有所述话题向量,计算出包含所有所述话题向量的最小球,将所述最小球的半径作为广度评分。
进一步地,所述根据所有所述话题向量,计算出包含所有所述话题向量的最小球的步骤,包括:
基于所述所有话题向量,采用最小球覆盖算法,计算出包含所有所述话题向量的最小球。
进一步地,所述对所述话题文本进行预处理,得到话题列表的步骤,包括:
利用预设的文本分类模型,对所述话题文本进行分类,得到第一话题分类结果;
对所述话题文本进行关键词抽取,得到第二话题分类结果;
将所述第一话题分类结果和所述第二话题分类结果合并,得到话题列表。
进一步地,所述对所述话题文本进行关键词抽取,得到第二话题分类结果的步骤,包括:
对所述话题文本进行分词,得到多个词项;
计算每个所述词项的词频,将所述词频大于预设值的词项作为话题词,以得到第二话题分类结果,所述第二话题分类结果包括话题词。
进一步地,所述获取待评分的话题文本的步骤,包括:
获取待评分的音频文件,对所述音频文件进行解码,得到待评分的话题文本。
进一步地,所述方法还包括获得词向量生成模型的步骤,该步骤包括:
获取通用语料,将所述通用语料进行分词,得到多个词项;
计算出每个词项的词频,根据所述词频建立霍夫曼树,所述霍夫曼树以各所述词项作为节点,以所述词频作为权值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海喜马拉雅科技有限公司,未经上海喜马拉雅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210092831.0/2.html,转载请声明来源钻瓜专利网。