[发明专利]一种自动韵律提取方法、系统及其在自然语言处理任务中的应用在审
申请号: | 201710023633.8 | 申请日: | 2017-01-13 |
公开(公告)号: | CN106683667A | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 陈彦局;潘嵘;李双印 | 申请(专利权)人: | 深圳爱拼信息科技有限公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/16;G10L15/14;G10L15/02;G10L15/04;G10L15/06;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市南山区南山街道科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种自动韵律提取方法、系统及其在自然语言处理任务中的应用,使用了自动文本‑语音对齐技术进行大规模韵律数据集的生成,并使用了循环神经网络对句子的韵律进行建模,加入双向扩展的机制;将自动构造的文本韵律数据集用于基于循环神经网络的自然语言处理任务上,此方法充分利用了文本韵律序列和自然语言处理任务中的常见序列数据的同构特性,通过在多任务学习下的交替训练方式,使得自然语言处理任务在不需要人工显式标注的语义信息的辅助下得到提升。本发明的实施能够克服传统人工韵律标注的低效、标准不一、无法大规模应用的缺陷,同时能够将存在于大量语音数据中的语义和语用特性迁移到其它任务上。 | ||
搜索关键词: | 一种 自动 韵律 提取 方法 系统 及其 自然语言 处理 任务 中的 应用 | ||
【主权项】:
一种自动语音韵律提取标注方法,其特征在于,该方法包括如下步骤:步骤1,接收待标注语音数据,获取所述语音数据的对应文本;步骤2,使用文本‑语音对齐技术对采集到的语音数据及所述对应文本进行时间轴上的对齐,形成对齐文本;步骤3,对所述对齐文本进行句子分割,从而生成以句子为单位的样本;步骤4,对所述样本中的每个句子应用自动韵律突出性标注算法,从而构造并得到自动标注的文本韵律数据集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳爱拼信息科技有限公司,未经深圳爱拼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710023633.8/,转载请声明来源钻瓜专利网。