[发明专利]文本处理方法及相关装置在审
申请号: | 202110714159.X | 申请日: | 2021-06-25 |
公开(公告)号: | CN113822056A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 陈小帅 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06Q50/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 相关 装置 | ||
本申请涉及自然语言理解技术领域,并具体公开了一种文本处理方法及相关装置。该方法包括:获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。本方法通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
技术领域
本申请涉及自然语言理解(natural language understanding,NLU)技术领域,尤其涉及文本处理方法及相关装置。
背景技术
随着计算机的普及和互联网的高速发展,互联网上传播的短视频越来越丰富。短视频已成为人们进行信息传播的一种主要媒介。与此同时,基于各大短视频平台的用户量及活跃度的提高,短视频的评论量也逐渐增长。高质量评论可以为用户评论互动提供良好的社交环境,提高短视频的播放量。因此,在面对海量短视频的质量参差不齐的评论时,对评论文本的错误识别与纠正尤为重要。
目前,对短视频的评论文本内容中可能存在的错误词组进行识别与纠正的方法,对错误的识别率及纠正结果的准确率较低,识别与纠正的效率较低。
发明内容
本申请实施例提供了一种文本处理方法及相关装置,通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
第一方面,本申请实施例提供了一种文本处理方法,该方法包括:
获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;
检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。
本申请实施例中,提供了一种针对于视频评论文本的错误识别方法。具体为,获取用户对目标视频发布的目标评论,然后将目标评论输入至语言模型中,得到目标评论中每个词的似然度,将目标评论中似然度较低的词作为该目标评论的待纠正词。可以理解的是,目标评论中较低的似然度,只要是比最高的似然度低的,都可以认为是较低的似然度。也可以理解为只要低于某个阈值的似然度,就可以认为是较低的似然度,如低于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。可以看出,上述待纠正词的似然度是基于将待纠正词输入至语言模型中得到的,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
本申请实施例通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别,可以提高评论中错误的识别率,提高识别效率。
在一种可能的实施方式中,所述方法还包括:
获取所述待纠正词对应的目标词;所述目标词的似然度大于所述待纠正词的似然度,所述目标词的似然度基于将所述目标词输入至所述语言模型中得到;
将所述待纠正词替换为所述目标词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110714159.X/2.html,转载请声明来源钻瓜专利网。