[发明专利]一种语音识别转化方法及系统有效

申请号：	202010439672.8	申请日：	2019-04-29
公开（公告）号：	CN111583905B	公开（公告）日：	2021-03-30
发明（设计）人：	杨彦;罗文华;马芳	申请（专利权）人：	盐城工业职业技术学院
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/22;G10L15/26;G06F16/61;G06F16/683;G06F40/289
代理公司：	北京冠和权律师事务所 11399	代理人：	朱健
地址：	224000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音识别转化方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别转化方法，其特征在于，所述方法包括如下步骤：

S101、获取待识别的语音数据；

S102、根据多个语系数据库，识别所述语音数据所对应的语系；

S103、根据所述语系，从多个语系数据库中获取与所述语音数据对应的所述语系数据库；所述语系数据库，包括多个语种数据子库；

S104、从多个所述语种数据子库中获取与所述语音数据对应的语种；

S105、根据文本转换数据库，将所述语音数据转换为所述语种对应的文本数据；

S106、提取所述文本数据的关键词数据；

S107、获取所述语音数据中所述关键词数据对应的关键词语音数据，并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中；

所述S106、提取所述文本数据的关键词数据；具体步骤包括：

对所述文本数据进行分词处理，获取多个词组；具体包括如下步骤：

建立分词模型；其具体步骤如下所示S201-S203：

S201将所述文本数据中的第一个字标注为B，

S202提取所述文本数据中标注为B的后一个字，并标注为C，同时提取所述文本数据中C所对应的字的所有前一个字去重后组成集合D，利用公式(2)判断所述标注为B的字是否是词语的结束字段；

其中，P₁,P₂为中间函数，length(D)为集合D中间的字的个数，P(B)为出现标注为B所对应的字的概率，P(C)为出现标注为C所对应的字的概率，length(all)为文本总长度，P(BC)为标注为B所对应字和标注为C所对应的字同时出现的概率，若最终B＝B则，标注B不变，若B＝E则将所述标注为B改为标注为E；

S203判断所述C是否为最后一个字，若是，则将所述标注C改为标注E，分词结束；若不是，则将所述标注为C改为标注为B，重复步骤S202和S203；

对所述文本数据分词的步骤为：

将文本数据的开始阶段和所有标注为E的字段后面增加切割线，则任意两个切割线之间为一个词组，提取所有词组，形成词组向量F1，对所述词组向量F1去除重复值，形成相应的词组集合F2，则所述集合F2中的词组则为分词处理后获取的词组，F2中含有词组个数为N个；

提取所述词组中的关键词数据；具体步骤包括：

首先利用公式(3)计算集合F2中每个词组的关键得分；

其中，Q_i为F2中第i个词组的得分，e为自然常数，lenght(F2_i)为F2中第i个词组的长度，P(F2_i)为F2中第i个词组的长度在向量F1中出现的次数，i＝1、2、3……n；

利用公式(4)确定关键词数据；

gjc＝find(max(Q₁,Q₂,Q₃……Q_N)) (4)

其中，gjc为最终得到的关键词，find(A)为寻找出A的值所对应的关键词，max()求取最大值；则gjc所对应的词则为确定的关键词数据。

2.如权利要求1所述的方法，其特征在于，

多个所述语系数据库，包括印欧语系数据库，闪含语系数据库，阿尔泰语系数据库，乌拉尔语系数据库，高加索语系数据库，汉藏语系数据库和德拉维达语系数据库。

3.如权利要求1所述的方法，其特征在于，