[发明专利]一种呼叫中心系统的铃音识别方法和系统有效
申请号: | 201610420648.3 | 申请日: | 2016-06-13 |
公开(公告)号: | CN105979106B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 董世宁 | 申请(专利权)人: | 北京容联易通信息技术有限公司 |
主分类号: | H04M3/42 | 分类号: | H04M3/42;H04M3/493;H04M3/537;H04M5/04 |
代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 王涛;马东伟 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种呼叫中心系统的铃音识别方法和系统,首先根据输入的电话号码进行呼叫;然后向被叫用户发起传真请求,通过SDP解析进行传真机初步识别;再对铃音状态进行识别,其中基于呼通后5秒的音频片段,对被叫未应答前振铃状态是标准回铃音还是彩铃进行识别;被叫端摘机后,基于摘机接听后的语音片段的语音分析,进行传真机摘机、自动应答机摘机、自然人摘机和接通无人回话的识别。通过上述方法,能准确地识别号码状态及终端类型,减小铃音状态识别的计算量,迅速给出识别结果,提高识别效率。 | ||
搜索关键词: | 一种 呼叫 中心 系统 识别 方法 | ||
【主权项】:
1.一种呼叫中心系统的铃音识别方法,其特征在于,包括以下步骤:S1、呼叫中心系统从呼叫列表中调取电话号码作为被叫用户,呼叫被叫用户,建立呼叫中心系统与被叫用户之间的语音通道;S2、呼叫中心系统向被叫用户发起传真请求;步骤S2具体包括:通过SIP的re‑INVITE消息向被叫用户发起传真媒体流的协商和建立请求,其中re‑INVITE消息中带有传真能力描述的SDP offer,被叫用户返回带有SDP内容的200消息,呼叫中心系统对所述返回的SDP内容进行解析;S3、呼叫中心系统通过语音片段分析对被叫未应答前振铃铃音状态进行识别;S4、如果步骤S2中识别为支持T38的网关上的传真机,则直接上报摘机后振铃铃音状态的识别结果为传真机;否则通过语音片段分析对摘机后振铃铃音状态进行识别;传真机在支持T38的网关上,SDP会带回m=image、t38的字段,SDP的解析在步骤S2中进行;在不支持T38的网关上,即使是传真机应答,SDP也不会带回m=image、t38的字段,此时在步骤S4中基于被叫端摘机接听后的前5秒语音片段、从时域和频域上语音分析,以识别摘机后振铃铃音状态;如果步骤S2中能从返回的SDP中解析出包含m=image、t38字段,则停止摘机后振铃铃音状态识别的过程,上报摘机后状态识别结果为传真机,此时无需再进行应答机、自然人和无人回话的识别;S5、将识别结果与对应的电话号码相关联,保存到数据库中;步骤S3呼叫中心系统通过从时域和频域对呼通后5秒的音频片段进行分析对被叫未应答前振铃铃音状态进行识别中,被叫未应答前振铃状态分为正常振铃状态和异常振铃状态;所述正常振铃状态的识别进一步包括步骤:S31、获取呼通后的音频片段,采用并行方式进行标准回铃音和彩铃的识别;S32、将音频能量值满足设定阈值E1的时刻识别为语音片段开始时刻T1,再次小于该阈值的时刻为语音结束时刻T2,T2在语音片段时段内,截取T1到T2时刻之间的语音片段数据,将所截取的语音片段数据进行快速傅里叶变换,如果450Hz的数据占截取的语音片段的权重超过设定阈值E2,即识别为标准回铃音;S33、将音频能量值超过阈值E3的时刻判断为语音开始时刻T3,如果在T3时刻到音频片段结束这一时间段内,满足音频能量值E3的语音片段采样个数大于阈值A1,且语音片段总持续时间T4占的百分比超过设定阈值P1,即识别为彩铃;S34、识别过程返回一个识别结果;其中异常振铃状态的识别是采用快速傅里叶变换提取语音片段的特征值,再与语音数据库匹配;所述呼叫中心系统基于被叫端摘机接听后的前5秒语音片段从时域和频域进行语音片段分析对摘机后振铃铃音状态进行识别,进一步包括:传真机摘机识别、自动应答机摘机识别、自然人摘机识别、接通无人回话这四种状态,具体步骤为:S41、获取摘机接听后的语音片段,采用并行方式进行传真机摘机识别、自动应答机摘机识别、自然人摘机识别、接通无人回话四种状态的识别;S42、当语音片段内的有声片段满足传真机的识别设定阈值A3,并且语音片段经快速傅里叶变换后,语音片段的频率为2100Hz,则识别为传真机应答;S43、将识别出有声音的时刻作为开始时刻T5,如果在语音片段的时长内识别为有声音的时间段之和T6占T5到语音片段结束这个时间段的百分比超过阈值P2,则识别为自动应答机;S44、当语音片段的时长内,有声片段的时间和T6满足自然人阈值A2,则识别为自然人应答;S45、当语音片段内的有声片段为0,则识别为接通无人回话状态;S46、识别过程返回一个识别结果;其中,E1是识别为有效语音的能量阈值,E2是标准回铃音占分析语音片段的权重阈值,E3是彩铃识别音频能量阈值,A1是5秒内识别为彩铃的语音片段采样个数的阈值,P1是采样音频片段的时间占比阈值,A3是传真机应答语音的识别阈值,P2是有声音时间段的时间占比阈值,A2是自然人应答的识别阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京容联易通信息技术有限公司,未经北京容联易通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610420648.3/,转载请声明来源钻瓜专利网。