[发明专利]用于生成解说词的方法和装置在审
申请号: | 201910277162.2 | 申请日: | 2019-04-08 |
公开(公告)号: | CN111859973A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 田浩;陈曦;王健宇;卢大明 | 申请(专利权)人: | 百度时代网络技术(北京)有限公司;百度(美国)有限责任公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/205 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100080 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 解说词 方法 装置 | ||
本申请实施例公开了用于生成解说词的方法和装置。该方法的一具体实施方式包括:获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇,新闻簇中的各个新闻针对同一个新闻事件;基于至少一个新闻簇确定目标新闻簇;对于目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分;基于目标新闻,生成目标新闻簇的解说词,其中,目标新闻为目标新闻簇中适合生成解说词的得分最高的新闻。该实施方式减少了所需占用的CPU资源、存储资源和I/O资源。
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成解说词的方法和装置。
背景技术
随着网络技术的发展,世界各地的各类新闻可以通过各种媒体发布给用户。对于同一个新闻事件,各种媒体(例如新闻类网站或者新闻类应用)会编辑出不同的新闻,不同媒体发出的新闻的侧重点会存在一定的差异,但是报道同一新闻事件的各个新闻中也会存在或多或少的重合信息。
对于用户来说,可能需要阅读多篇新闻报道才能从中提取出自己想要的信息,这就会导致用户的获取新闻的效率较低。为了帮助用户提高新闻获取的效率,可以对同一新闻事件的多篇新闻进行聚合,去除多篇新闻中的冗余信息,提取针对新闻事件的解说词。
发明内容
本申请实施例提出了用于生成解说词的方法和装置。
第一方面,本申请实施例提供了一种用于生成解说词的方法,该方法包括:获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇,新闻簇中的各个新闻针对同一个新闻事件;基于至少一个新闻簇确定目标新闻簇;对于目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分;基于目标新闻,生成目标新闻簇的解说词,其中,目标新闻为目标新闻簇中适合生成解说词的得分最高的新闻。
在一些实施例中,该方法还包括:生成与所述解说词对应的语音和/或视频。
在一些实施例中,该方法还包括:将与所述解说词对应的语音和/或视频发送给终端设备,以供终端设备呈现所收到的语音和/或视频。
在一些实施例中,基于至少一个新闻簇确定目标新闻簇,包括:将至少一个新闻簇中的每个新闻簇确定为目标新闻簇。
在一些实施例中,基于至少一个新闻簇确定目标新闻簇,包括:将至少一个新闻簇中的每个新闻簇按照该新闻簇内最近第二预设时长内所生成的新闻数目从多到少的顺序进行排序;将至少一个新闻簇中排序在预设排序范围内的每个新闻簇确定为目标新闻簇。
在一些实施例中,基于至少一个新闻簇确定目标新闻簇,包括:将至少一个新闻簇中的每个优质新闻簇确定为目标新闻簇,其中,优质新闻簇所包括的新闻中所包括的图像数目大于预设最少图像数目以及所包括的视频数目大于预设最少视频数目。
在一些实施例中,基于至少一个新闻簇确定目标新闻簇,包括:对于至少一个新闻簇中的每个新闻簇,基于该新闻簇中的各个新闻确定该新闻簇对应的新闻事件主题以及所确定的新闻事件主题的当前出现频度;确定至少一个新闻簇中每个新闻簇对应的新闻事件主题的当前出现频度减去该新闻事件主题的历史出现频度的频度差值;将至少一个新闻簇中对应的新闻事件主题的频度差值大于预设频度差值阈值的新闻簇确定为目标新闻簇。
在一些实施例中,基于目标新闻,生成目标新闻簇的解说词,包括:将目标新闻中所包括的文本确定为目标文本;删除目标文本中所包括的不适合解说文本,其中,不适合解说文本为预先确定的不适合解说文本集合中的文本;将目标文本中所包括的书面语替换为相同语义的口语;将对目标文本进行提取摘要所得到的摘要文本确定为目标新闻簇的解说词。
在一些实施例中,将对目标文本进行提取摘要所得到的摘要文本确定为目标新闻簇的解说词,包括:按照预设最快语速和预设最长音频时长确定解说词最多字数;对目标文本进行摘要提取,且所提取的摘要文本的字数少于解说词最多字数;将所提取的摘要文本确定为目标新闻簇的解说词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度时代网络技术(北京)有限公司;百度(美国)有限责任公司,未经百度时代网络技术(北京)有限公司;百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910277162.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成视频的方法和装置
- 下一篇:信息识别装置、方法、计算机设备及存储介质