[发明专利]基于多方交流的语音数据文字转化方法有效
申请号: | 202110404363.1 | 申请日: | 2021-04-15 |
公开(公告)号: | CN112802480B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 江合文 | 申请(专利权)人: | 广东际洲科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06 |
代理公司: | 深圳至诚化育知识产权代理事务所(普通合伙) 44728 | 代理人: | 刘英 |
地址: | 510700 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多方 交流 语音 数据 文字 转化 方法 | ||
1.基于多方交流的语音数据文字转化方法,其特征在于,包括如下方法步骤:
首先识别多方设备端输入的预设密令,其包括两种姿态:
姿态一、预设密令正确,则对该设备端进行标记,并输出各个设备端的标记,根据设备端的标记构建群聊;
姿态二、预设密令不正确,则继续弹出输入窗口;
对群聊内各个设备端交流的语音数据进行文字转化;
将语音数据以及其转化后的文字数据通过存储器进行存储;
在存储器内提取出预选标记设备端输出的语音数据以及其转化后的文字数据,然后根据提取出的文字数据识别预选标记设备端的关键数据信息,以形成关键标题,而后提取出其余标记设备端在关键标题之后下一个关键标题出现之前输出的语音数据以及其转化后的文字数据,以形成关键文字数据;
将关键文字数据和关键标题进行整合,具体的,先根据关键标题对关键文字数据进行筛选,筛选出价值文字数据,并将价值文字数据、语音数据以及设备端标记相互对应的补入在群聊的显示框内;
所述关键数据信息提取采用加权提取算法,其算法步骤如下:
根据语音数据中的声音间隔和声音的语气进行标点符号断句;
利用加权因子对预选标记设备端文字数据的词频、词长、词性、位置和词典因子进行量化处理,量化后进行权重计算,得出各个因子总权值;
利用降序排列的方式对权值相对应的词语进行排序,得出关键词列表,通过关键词列表获取关键数据信息;
所述因子总权值计算公式如下:
;
其中,为词语在文字数据的因子总权值;为词频因子占比;为词频因子;为词长因子占比;为词长因子;为词性因子占比;为词性;为位置因子占比;为位置占比;为词典因子占比;为词典因子,且。
2.根据权利要求1所述的基于多方交流的语音数据文字转化方法,其特征在于:所述预选标记设备端的关键数据信息包括重点文字信息、语气助词信息和关键词提取信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东际洲科技股份有限公司,未经广东际洲科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110404363.1/1.html,转载请声明来源钻瓜专利网。