[发明专利]字幕对话流的主题分割方法及装置有效
申请号: | 201910906359.8 | 申请日: | 2019-09-24 |
公开(公告)号: | CN110717316B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 周强;张镭镧 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张秀程 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字幕 对话 主题 分割 方法 装置 | ||
本发明提供一种字幕对话流的主题分割方法及装置,方法包括:基于BERT提取字幕对话流的句子序列中每个句子的语义特征,并根据每个句子的语义特征将每个句子表示为向量;将所有所述句子的向量输入至TCN,输出所述句子序列对应的标签序列;其中,所述句子序列中的句子与所述标签序列中的标签一一对应;根据所述标签序列,对所述字幕对话流进行主题分割。本发明自动完成字幕对话流的主题分割,有效提高了分割效率和准确率。
技术领域
本发明属于文本流的主题分割技术领域,尤其涉及一种字幕对话流的主题分割方法及装置。
背景技术
主题分割技术,是指将文本根据主题划分为多个片段,每个片段内保持主题的连续性,而分割点前后则存在主题的转换。
图1展示了这一过程,图1的左边是分割之前的原始对话流,其中的对话包含多个主题,在对话的过程中可能会从一个主题转移到另一个新的主题,此时不同主题所覆盖的对话之间的边界没有显式地标明;图1的右边是切分后的对话片段,每一个小方块表示一个对话片段,对话片段中的话语指涉同一个主题,不同的对话片段通常拥有不同的主题,用不同的填充表示,此时对话片段之间的边界会显式标明。
主题分割可以为诸如文本摘要、信息抽取、对话分析、问答等任务提供支持。例如,一段长文本流例如会议记录或字幕等,通常会包含不同主题的片段。如果不进行主题分割,当需要查找特定部分时,尽管可以通过搜索关键词的方式找到其所在的语句,但很难定位到该主题片段的开头。而将文本流按照主题切分后进行组织,对于主题片段的摘要和检索都会更加容易。
互联网上数量巨大的影视剧字幕为自然语言处理提供了丰富的数据资源。影视剧的字幕文件是一种典型的文本流,其按时间顺序记录了每个角色的说话内容,但每条说话内容并未标明说话人的身份信息,也没有明确给出场景之间的转换标记,具有不同主题的对话片段通常连接在一起。主题片段的转换点通常需要通过人工标出的转换标记确定。
已有的传统方法通常利用句子的某些统计特征作为主题变换的判断依据,往往针对新闻、百科和教科书等独白文本或者会议记录等文本进行主题分割,这类文本用语正式,句子较长,反映主题的词项较多,且主题内聚性高。相比而言,诸如影视剧字幕这类对话流文本通常话语较短,用词口语化,且主题内聚性较低,使用传统方法对对话流文本进行主题切分难以取得较好效果。
发明内容
为克服上述现有的主题分割方法应用于字幕对话流分割效果差的问题或者至少部分地解决上述问题,本发明实施例提供一种字幕对话流的主题分割方法及装置。
根据本发明实施例的第一方面,提供一种字幕对话流的主题分割方法,包括:
基于BERT提取字幕对话流的句子序列中每个句子的语义特征,并根据每个句子的语义特征将每个句子表示为向量;
将所有所述句子的向量输入至TCN(Temporal Convolutional Network,时序卷积网络),输出所述句子序列对应的标签序列;其中,所述句子序列中的句子与所述标签序列中的标签一一对应;
根据所述标签序列,对所述字幕对话流进行主题分割。
根据本发明实施例第二方面提供一种字幕对话流的主题分割装置,包括:
句子表示模块,用于基于BERT提取字幕对话流的句子序列中每个句子的语义特征,并根据每个句子的语义特征将每个句子表示为向量;
主题检测模块,用于将所有所述句子的向量输入至TCN,输出所述句子序列对应的标签序列;其中,所述句子序列中的句子与所述标签序列中的标签一一对应;
主题分割模块,用于根据所述标签序列,对所述字幕对话流进行主题分割。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910906359.8/2.html,转载请声明来源钻瓜专利网。