[发明专利]基于剧本的字幕场景和说话人信息自动标注方法和系统在审
申请号: | 201811633842.5 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109885648A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 周强;张镭镧 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种基于剧本的字幕场景和说话人信息自动标注方法和系统,方法包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐。本发明实施例利用uid序列的特点,通过神经网络和启发式算法对错误对齐的uid进行检测和修正;根据修正后的uid,将对应的说话人标注到所述字幕行中。相关技术可以自动从字幕文件中抽取不同场景下的对话片段的技术,用以构建高质量的中文对话语料库。 | ||
搜索关键词: | 字幕行 文档 对话内容 搜索引擎 自动标注 字幕场景 标注 修正 启发式算法 错误对齐 神经网络 字幕文件 对齐 相似度 语料库 构建 句子 录入 对话 解析 抽取 查询 场景 返回 检测 中文 | ||
【主权项】:
1.一种基于剧本的字幕场景和说话人信息自动标注方法,其特征在于,包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐;其中,所述文档对应的编号uid为场景编号和对话编号的组合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811633842.5/,转载请声明来源钻瓜专利网。