[发明专利]方言地理-声谱特征采集技术在审
申请号: | 201610213770.3 | 申请日: | 2016-04-08 |
公开(公告)号: | CN107273377A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 王雪飞;刘珺 | 申请(专利权)人: | 黄山学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 245041 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方言 地理 声谱 特征 采集 技术 | ||
技术领域
本发明公开了一种利用GPS定位与地理信息系统支持的地域方言的声学特征记录仪器,方言获取的地理信息录入与方言取样地的地理信息自动录入。本发明通过对方言录制过程中自动形成地理特征与方言特征数据集,形成快速索引。方言声学特征数据提取形成重要特征声学数据谱存储与方言声学特征谱系存储,直观显示,显示方言的地域与声学特征。
利用GPS形成地理位置对方言人声学取样。利用DSP技术对声音指纹并进行存储管理,形成方言的地理属性识别。本发明在对方言的全面检索方面,显示出方便性,极大提高方言采集的可靠性,降低采集难度。
背景技术
方言录制过程中,对方言发声人的身份信息与地理信息、方言的相关文字或声学文件均需要记录,或形成标注,以便于使用。但传统的人工记录信息繁琐,自动录音的后期工作量极大,而形成的电子文件(声音)对后期的分析与处理,均存在低效瓶颈。
本发明公开了一种标准化方言声取样存储与数据存储技术。本发明涉及到声学特征结构、方言数据格式、指定函数DSP芯片计算模块、字-音数据存储模块、显示与管理方法。可以进行方言声数据的可查询、可管理、可计算的快速实现,大量用于方言的研究与识别、转换、互译,以及利用方言进行的地域分类。方言声特征谱的存储可以为方言的研究与标准化校准提供有效方法。
声音文件的形成有磁带技术、磁盘技术、固态存储三方式,所形成的文件系统存在检索困难、计算复杂问题;方言的声学采样是方言研究与方言应用系统必要步骤,但方言采样中即时发现特殊的方言特征,并进行方言的社会学与环境研究,是方言研究中急待解决的问题;而方言间的互译技术核心,是快速的方言计算(识别、比较与查询),目前的相关方言的言语声学研究,完成了原理级的实验,但缺少可实现的技术手段。本发明在利用标准言语声纹库的基础上,实现了方言特征的快速发现与精确计算,形成地理位置为标志的方言声学参数特征图谱绘制。
发明内容
方言地理-声谱特征采集原理
本发明采用GPS辅助定位、方言朗读人像识别与方言的数据声谱技术,可以快速的完成方言的完整数据采集,提高方言采集到应用的效率。原理如图1所示。
本发明技术的原理如图1所示。器件①为普通话筒,用于对声音数据的获取,前置处理后形成数字信号;器件②为方言取样人的相片与嘴形摄像,形成图片;③为信号处理的DSP芯片组成的具有FFT与HMM函数的计算单元,用于对声音流与图像流数据计算,形成MFCC特征数据系数,用于与标准字-声存储器④的数据比较计算后,形成文本内容,构造索引并存储;器件⑥用于文本扫描,用于对证件与相关文件的数据内容识别,是索引的一个组成部分;④是已知的方言字-音数据库,用于对方言声音内容行文本字识别,方言字-音是指由本方言的标准发声音(或样本)字(或词句)对应的“音的特征数据形成的数据集”,由系统的字-音库生成模块形成。由DSP系统处理的(声音文件,文本内容,图像文件以及对应索引文件)文件系统,由arm系统⑦结合GPS⑤信息,形成有效方言数据存储到数据库中。所存储的数据在文本显示器⑧中显示与管理。
图2为方言声文件形成存储的过程。方言录制的方法是通过对方言声阅读人(样本人)文本显示内容,进行阅读形成声音信号,声音信号通过DSP处理形成音素(子)队列与方言声音文件,声音文件直接存入存储器;如果本地方言无标准音-字对应数据库,则需要生成字-音标准库⑩,方法是启动字-音计算算法⑨,生成标准库;如果存在本地字音库,则将方言音素(子)队列与字-音库进行识别,形成方言文本;不同的字-音库,识别出的方言文本内容是不同的。这个方言文本的特征参数生成后,成为方言数据库索引的一部分;另一方面,GPS信号用于对地理位置识别,并用于辅助确定本地数据库中是否具有标准库资料,同时也是方言索引的一个部分;图像信息分方言样本人的资料(包括扫描文件,人像)与方言阅读过程图像同步信号,信号由DPS系统处理形成与相应的音素队列对应的图像帧(音素与图像帧系列)文件,图像帧特征数据为索引的一个组成部分;在索引形成后,构造出索引、声音文件、图像文件的存储结构,存储到中,并形成可管理数据库。数据库的内容与整个系统由显示界面管理,并提供人机互动界面。
3.2字-音数据模块
方言音素队列形成框架如图3所示,由文本显示器提供阅读内容(字词句),阅读人面对话筒与摄像头阅读,形成图像与声音文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄山学院,未经黄山学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610213770.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:目标位置搜索方法和装置
- 下一篇:一种文件存储方法及装置