[发明专利]用于生成解说词的方法和装置在审
申请号: | 201910277162.2 | 申请日: | 2019-04-08 |
公开(公告)号: | CN111859973A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 田浩;陈曦;王健宇;卢大明 | 申请(专利权)人: | 百度时代网络技术(北京)有限公司;百度(美国)有限责任公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/205 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100080 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 解说词 方法 装置 | ||
1.一种用于生成解说词的方法,包括:
获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇,新闻簇中的各个新闻针对同一个新闻事件;
基于所述至少一个新闻簇确定目标新闻簇;
对于所述目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分;
基于目标新闻,生成所述目标新闻簇的解说词,其中,所述目标新闻为所述目标新闻簇中适合生成解说词的得分最高的新闻。
2.根据权利要求1所述的方法,其中,所述方法还包括:
生成与所述解说词对应的语音和/或视频。
3.根据权利要求2所述的方法,其中,所述方法还包括:
将与所述解说词对应的语音和/或视频发送给终端设备,以供所述终端设备呈现所收到的语音和/或视频。
4.根据权利要求3所述的方法,其中,所述基于所述至少一个新闻簇确定目标新闻簇,包括:
将所述至少一个新闻簇中的每个新闻簇确定为所述目标新闻簇。
5.根据权利要求3所述的方法,其中,所述基于所述至少一个新闻簇确定目标新闻簇,包括:
将所述至少一个新闻簇中的每个新闻簇按照该新闻簇内最近第二预设时长内所生成的新闻数目从多到少的顺序进行排序;
将所述至少一个新闻簇中排序在预设排序范围内的每个新闻簇确定为所述目标新闻簇。
6.根据权利要求3所述的方法,其中,所述基于所述至少一个新闻簇确定目标新闻簇,包括:
将所述至少一个新闻簇中的每个优质新闻簇确定为所述目标新闻簇,其中,优质新闻簇所包括的新闻中所包括的图像数目大于预设最少图像数目以及所包括的视频数目大于预设最少视频数目。
7.根据权利要求3所述的方法,其中,所述基于所述至少一个新闻簇确定目标新闻簇,包括:
对于所述至少一个新闻簇中的每个新闻簇,基于该新闻簇中的各个新闻确定该新闻簇对应的新闻事件主题以及所确定的新闻事件主题的当前出现频度;
确定所述至少一个新闻簇中每个新闻簇对应的新闻事件主题的当前出现频度减去该新闻事件主题的历史出现频度的频度差值;
将所述至少一个新闻簇中对应的新闻事件主题的频度差值大于预设频度差值阈值的新闻簇确定为所述目标新闻簇。
8.根据权利要求3所述的方法,其中,所述基于目标新闻,生成所述目标新闻簇的解说词,包括:
将所述目标新闻中所包括的文本确定为目标文本;
删除所述目标文本中所包括的不适合解说文本,其中,不适合解说文本为预先确定的不适合解说文本集合中的文本;
将所述目标文本中所包括的书面语替换为相同语义的口语;
将对所述目标文本进行提取摘要所得到的摘要文本确定为所述目标新闻簇的解说词。
9.根据权利要求8所述的方法,其中,所述将对所述目标文本进行提取摘要所得到的摘要文本确定为所述目标新闻簇的解说词,包括:
按照预设最快语速和预设最长音频时长确定解说词最多字数;
对所述目标文本进行摘要提取,且所提取的摘要文本的字数少于所述解说词最多字数;
将所提取的摘要文本确定为所述目标新闻簇的解说词。
10.根据权利要求3所述的方法,其中,所述对于所述目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分,包括:
提取该新闻在至少一种特征下的特征值;
基于所提取的至少一种特征值,确定该新闻的适合生成解说词的得分。
11.根据权利要求3所述的方法,其中,所述对于所述目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分,包括:
将该新闻所包括的文本输入预先训练的得分计算模型,得到该新闻的适合生成解说词的得分,其中,所述得分计算模型用于表征文本和文本适合生成解说词的得分之间的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度时代网络技术(北京)有限公司;百度(美国)有限责任公司,未经百度时代网络技术(北京)有限公司;百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910277162.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成视频的方法和装置
- 下一篇:信息识别装置、方法、计算机设备及存储介质