[发明专利]一种基于语音的数据处理方法、装置和电子设备在审
申请号: | 201710384412.3 | 申请日: | 2017-05-26 |
公开(公告)号: | CN108962253A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 李明修;银磊;卜海亮 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问诊过程 文本数据 电子设备 目标用户 数据处理 记录 语音 数据依据 问诊信息 语音数据 自动整理 问诊 语句 采集 医生 | ||
1.一种基于语音的数据处理方法,其特征在于,包括:
获取问诊过程数据,所述问诊过程数据依据问诊过程中采集的语音数据确定;
依据所述问诊过程数据进行识别,获取对应的第一文本数据和第二文本数据,其中,所述第一文本数据属于一个目标用户,所述第二文本数据属于除所述目标用户之外的其他用户;
依据所述第一文本数据和第二文本数据,得到问诊信息。
2.根据权利要求1所述的方法,其特征在于,所述问诊过程数据为语音数据;
所述依据所述问诊过程数据进行识别,获取对应的第一文本数据和第二文本数据,包括:
依据声纹特征,从所述语音数据中分离出第一语音数据和第二语音数据;
对所述第一语音数据和第二语音数据分别进行语音识别,获取对应的第一文本数据和第二文本数据。
3.根据权利要求2所述的方法,其特征在于,所述依据声纹特征,从所述语音数据中分离出第一语音数据和第二语音数据,包括:
将所述语音数据划分为多个语音片段;
依据声纹特征,采用所述语音片段确定第一语音数据和第二语音数据。
4.根据权利要求3所述的方法,其特征在于,所述依据声纹特征,采用所述语音片段确定第一语音数据和第二语音数据,包括:
采用基准声纹特征对各语音片段分别进行匹配,其中,所述基准声纹特征为目标用户的声纹特征;
获取与所述基准声纹特征相符的语音片段,得到对应的第一语音数据;
获取与所述基准声纹特征不相符的语音片段,得到对应的第二语音数据。
5.根据权利要求3所述的方法,其特征在于,所述依据声纹特征,采用所述语音片段确定第一语音数据和第二语音数据,包括:
对各语音片段的声纹特征进行识别;
统计各声纹特征分别对应语音片段的数量;
确定具有语音片段的数量最大的声纹特征,采用所述声纹特征对应的语音片段生成第一语音数据;
采用不属于所述第一语音数据的语音片段生成第二语音数据。
6.根据权利要求2所述的方法,其特征在于,所述对所述第一语音数据和第二语音数据分别进行语音识别,获取对应的第一文本数据和第二文本数据,包括:
对所述第一语音数据中各语音片段分别进行语音识别,采用识别得到的文本片段生成第一文本数据;
对所述第二语音数据中各语音片段分别进行语音识别,采用识别得到的文本片段生成第二文本数据;
则,所述依据所述第一文本数据和第二文本数据,得到问诊信息,包括:
依据所述第一文本数据中各文本片段和所述第二文本数据中各文本片段分别对应语音片段的时间顺序,对各文本片段进行排序,得到问诊信息。
7.根据权利要求1所述的方法,其特征在于,所述问诊过程数据为语音数据识别得到的文本识别结果;
所述依据所述问诊过程数据进行识别,获取对应的第一文本数据和第二文本数据,包括:
对所述文本识别结果进行特征识别,依据语言特征分离出第一文本数据和第二文本数据。
8.根据权利要求7所述的方法,其特征在于,对所述文本识别结果进行特征识别,依据语言特征分离出第一文本数据和第二文本数据,包括:
对所述文本识别结果进行划分,获取对应的文本片段;
采用预设模型对所述文本片段进行识别,确定所述文本片段具有的语言特征,所述语言特征包括目标用户语言特征和非目标用户语言特征;
采用具有目标用户语言特征的文本片段生成第一文本数据,以及,采用具有非目标用户语言特征的文本片段生成第二文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710384412.3/1.html,转载请声明来源钻瓜专利网。