[发明专利]字幕生成装置、方法以及存储介质在审

申请号：	202211050256.4	申请日：	2022-08-31
公开（公告）号：	CN116072120A	公开（公告）日：	2023-05-05
发明（设计）人：	芦川平;岩田宪治	申请（专利权）人：	株式会社东芝
主分类号：	G10L15/26	分类号：	G10L15/26
代理公司：	中国贸促会专利商标事务所有限公司 11038	代理人：	金光华
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字幕生成装置方法以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种字幕生成装置、方法以及存储介质，在实时地根据声音辨识结果生成字幕时降低用于使字幕变得易于阅读的修正的负担。实施方式所涉及的字幕生成装置具备取得部、历史部、生成部、历史更新部以及提示部。取得部逐次地取得声音辨识结果的文本。历史部将文本保存为历史数据。生成部根据保存的一个以上的历史数据来推测文本的分割位置以及结合位置，并基于分割位置以及结合位置，根据一个以上的历史数据来生成字幕文本。历史更新部根据分割位置以及所述结合位置来更新历史数据。提示部提示字幕文本。

本申请以日本专利申请2021-178498(申请日：2021年11月1日)为基础，从该申请享受优先的权益。本申请通过参考该申请而包含该申请的全部内容。

技术领域

实施方式涉及字幕生成装置、方法以及存储介质。

背景技术

在电视节目等的字幕制作中，有活用声音辨识技术来自动地生成字幕的技术。近年来，随着深度学习技术的发展，声音辨识的精度快速地提高，但由于包含背景音、言语错误、术语的发声等，声音辨识有可能出现错误。因此，在实际的字幕制作时，并非通过声音辨识来制作所有的字幕，而是在大部分的情况下，人工地确认声音辨识结果的字幕来修正错误，制作最终的字幕。

另外，在如新闻节目等那样实时地根据声音辨识结果生成字幕的情况下，希望确保人工的修正时间，所以期望提早地得到声音辨识结果。作为其有效的方法，有提早确定这样的技术。提早确定是指在包括声音辨识的模式辨识中当搜索空间的候选变少时结束搜索并在该时间点输出辨识结果的技术，适用于实时地利用声音辨识的应用。然而，在使用了提早确定的情况下，在发声结束前结束搜索，所以声音辨识结果被缩短，或者有时相反地搜索空间未被缩小而声音辨识结果变长。因此，在将提早确定的技术用于字幕生成的情况下，为了使人易于阅读字幕，对声音辨识结果进行结合或者分割这样的修正的负担大。

如以上那样，在以往的字幕生成装置中，在实时地根据声音辨识结果生成字幕时，用于使字幕变得易于阅读的修正的负担大。

发明内容

本发明要解决的课题在于，提供一种在实时地根据声音辨识结果生成字幕时能够降低用于使字幕变得易于阅读的修正的负担的字幕生成装置、方法以及存储介质。

实施方式所涉及的字幕生成装置具备取得部、历史部、生成部、历史更新部以及提示部。所述取得部逐次地取得声音辨识结果的文本。所述历史部将所述文本保存为历史数据。所述生成部根据所述保存的一个以上的所述历史数据推测所述文本的分割位置以及结合位置，并基于所述分割位置以及所述结合位置，根据一个以上的所述历史数据生成字幕文本。所述历史更新部根据所述分割位置以及所述结合位置来更新所述历史数据。所述提示部提示所述字幕文本。

附图说明

图1是示出第1实施方式所涉及的字幕生成装置的一个例子的框图。

图2是用于说明第1实施方式所涉及的历史数据的示意图。

图3是用于说明第1实施方式中的动作的一个例子的流程图。

图4是用于说明第1实施方式中的动作的一个例子的示意图。

图5是示出第2实施方式所涉及的字幕生成装置的一个例子的框图。

图6是用于说明第2实施方式中的动作的一个例子的流程图。

图7是用于说明第2实施方式中的动作的一个例子的示意图。

图8是示出第3实施方式所涉及的字幕生成装置的一个例子的框图。

图9是用于说明第3实施方式中的动作的一个例子的流程图。

图10是用于说明第3实施方式中的动作的一个例子的示意图。

图11是例示第4实施方式所涉及的字幕生成装置的硬件结构的图。