[发明专利]一种朗读数据的处理系统及方法在审

申请号：	202210936458.2	申请日：	2022-08-04
公开（公告）号：	CN115376557A	公开（公告）日：	2022-11-22
发明（设计）人：	李鑫源;吕全;潘祖济;周洲	申请（专利权）人：	广州优谷信息技术有限公司
主分类号：	G10L25/60	分类号：	G10L25/60;G10L25/63;H04L12/18;G10L15/16;G06K9/62
代理公司：	深圳市育科知识产权代理有限公司 44509	代理人：	李丽洪
地址：	510000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种朗读数据处理系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种朗读数据的处理系统及方法，其特征在于：包括音频流处理、文本流处理、数据差异分析、权重双流判断、分发处理；

所述音频流处理；朗读音频经过系统DSP解码，将时域信号转换为频域信号进行分析；

所述文本流处理：根据预存储的音频字典，由这四个部分完成的特征提取、声学模型、语言模型和字典；

所述数据差异分析包括音频流结果对比、文本流结果对比；

所述权重双流判断：音频流处理的结果反应语速、语调的正确表达，文本流处理的结果反应词汇的正确率；

所述分发处理：朗读数据补充原有学生音频标签，利用UDP组播方式在局域网中进行组播传送，精准分发到各个学生平板的软件接收后展示。

2.根据权利要求1所述的一种朗读数据的处理系统及方法，其特征在于：所述音频流处理具体为：朗读音频经过系统DSP解码，将时域信号转换为频域信号进行分析，基于长短期记忆神经网络(LSTM)的语音特征识别模型将频谱数据输入到LSTM得到一个输出，输出向量经过softmax函数进行转换，输出情绪分类标签向量，得到正确的信号流供下一模块分析使用。

3.根据权利要求1所述的一种朗读数据的处理系统及方法，其特征在于：所述文本流处理具体为：根据预存储的音频字典，由这四个部分完成的特征提取、声学模型、语言模型和字典，特征提取工作：将朗读音频信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特征性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

4.根据权利要求1所述的一种朗读数据的处理系统及方法，其特征在于：所述音频流结果对比：采用音频的“短时能量”来判断两个音频的相似程度，具体做法如下：

a、解码音频到wav格式：输出wav格式音频流；

b、获取音频参数和数据：每16位读取一次带符号数作为一次采样点的采样结果；

c、归一化处理原始数据：获取所有采样点最大数值max_value(绝对值最大值)，通过max_value对所有采样点数据做归一化处理。

d、对音频数据做高通滤波，过滤掉低频信号的干扰：设计高通滤波器过滤低频干扰。

e、求得该音频的短时能量分布：语音信号和噪音信号的主要区别在于他们的能量。

f、短时能量可以有效地判断信号幅度的大小，并可以用于进行有声/无声的判断。

5.根据权利要求1所述的一种朗读数据的处理系统及方法，其特征在于：所述文本流结果对比具体为：采用SimHash算法，将高维的特征向量映射成低维的特征向量，通过两个向量的Hamming Distance(汉明距离)来确定朗读文章和朗读文本是否存在不相似的地方和数量。

g、分词：对需要比较的文本进行分词，提取特征向量。并对特征向量，进行权重(weight)设置；

h、hash：通过hash函数计算各个特征向量的hash值。hash值为二进制数01组成的n-bit签名；

i、加权：在hash值的基础上，给所有特征向量进行加权，即W＝Hash*weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘；

j、合并：将上述各个特征向量的加权结果累加，变成只有一个序列串。拿前两个特征向量举例；

k、降维：对于n-bit签名的累加结果，如果大于0则置1，否则置0，从而得到该语句的simhash值，最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度；

l、计算：通过Simhash签名值，计算汉明距离，随后输出相似值，用作朗读发音数据的做下一个模块的输入。

6.根据权利要求1所述的一种朗读数据的处理系统及方法，其特征在于：所述权重双流判断具体为：音频流处理的结果反应语速、语调的正确表达，文本流处理的结果反应词汇的正确率。反应学生朗读内容的语速、语调和词汇表达是否符合AI系统内置的文章，继而判断是否正确表达、咬字清晰。

7.根据权利要求1所述的一种朗读数据的处理系统及方法，其特征在于：所述分发处理具体为：朗读数据补充原有学生音频标签，利用UDP组播方式在局域网中进行组播传送，精准分发到各个学生平板的软件接收后展示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州优谷信息技术有限公司，未经广州优谷信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210936458.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种废屑收集装置及防火建材加工设备
下一篇：一种自测速度可调高度磁气混合隔振器

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种朗读数据的处理系统及方法在审

专利文献下载