[发明专利]字幕对话流的主题分割方法及装置有效

申请号：	201910906359.8	申请日：	2019-09-24
公开（公告）号：	CN110717316B	公开（公告）日：	2021-07-30
发明（设计）人：	周强;张镭镧	申请（专利权）人：	清华大学
主分类号：	G06F40/166	分类号：	G06F40/166;G06F40/30
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	张秀程
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字幕对话主题分割方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种字幕对话流的主题分割方法及装置，方法包括：基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；根据所述标签序列，对所述字幕对话流进行主题分割。本发明自动完成字幕对话流的主题分割，有效提高了分割效率和准确率。

技术领域

本发明属于文本流的主题分割技术领域，尤其涉及一种字幕对话流的主题分割方法及装置。

背景技术

主题分割技术，是指将文本根据主题划分为多个片段，每个片段内保持主题的连续性，而分割点前后则存在主题的转换。

图1展示了这一过程，图1的左边是分割之前的原始对话流，其中的对话包含多个主题，在对话的过程中可能会从一个主题转移到另一个新的主题，此时不同主题所覆盖的对话之间的边界没有显式地标明；图1的右边是切分后的对话片段，每一个小方块表示一个对话片段，对话片段中的话语指涉同一个主题，不同的对话片段通常拥有不同的主题，用不同的填充表示，此时对话片段之间的边界会显式标明。

主题分割可以为诸如文本摘要、信息抽取、对话分析、问答等任务提供支持。例如，一段长文本流例如会议记录或字幕等，通常会包含不同主题的片段。如果不进行主题分割，当需要查找特定部分时，尽管可以通过搜索关键词的方式找到其所在的语句，但很难定位到该主题片段的开头。而将文本流按照主题切分后进行组织，对于主题片段的摘要和检索都会更加容易。

互联网上数量巨大的影视剧字幕为自然语言处理提供了丰富的数据资源。影视剧的字幕文件是一种典型的文本流，其按时间顺序记录了每个角色的说话内容，但每条说话内容并未标明说话人的身份信息，也没有明确给出场景之间的转换标记，具有不同主题的对话片段通常连接在一起。主题片段的转换点通常需要通过人工标出的转换标记确定。

已有的传统方法通常利用句子的某些统计特征作为主题变换的判断依据，往往针对新闻、百科和教科书等独白文本或者会议记录等文本进行主题分割，这类文本用语正式，句子较长，反映主题的词项较多，且主题内聚性高。相比而言，诸如影视剧字幕这类对话流文本通常话语较短，用词口语化，且主题内聚性较低，使用传统方法对对话流文本进行主题切分难以取得较好效果。

发明内容

为克服上述现有的主题分割方法应用于字幕对话流分割效果差的问题或者至少部分地解决上述问题，本发明实施例提供一种字幕对话流的主题分割方法及装置。

根据本发明实施例的第一方面，提供一种字幕对话流的主题分割方法，包括：

基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；

将所有所述句子的向量输入至TCN(Temporal Convolutional Network，时序卷积网络)，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；

根据所述标签序列，对所述字幕对话流进行主题分割。

根据本发明实施例第二方面提供一种字幕对话流的主题分割装置，包括：

句子表示模块，用于基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；

主题检测模块，用于将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；

主题分割模块，用于根据所述标签序列，对所述字幕对话流进行主题分割。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载