[发明专利]直播平台语音收集方法、系统及存储介质在审
申请号: | 202010066065.1 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111625614A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 宁思乔;刘德友 | 申请(专利权)人: | 全息空间(深圳)智能科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36;G06F16/33;G06F16/951;G06F16/958;G06F16/215;H04N21/2187;G10L15/26;G10L15/08 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 田黎绒 |
地址: | 518000 广东省深圳市福田区梅林*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 直播 平台 语音 收集 方法 系统 存储 介质 | ||
1.一种直播平台语音收集方法,其特征在于,包括如下步骤:
S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;
S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;
S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;
S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;
S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。
2.如权利要求1所述直播平台语音收集方法,其特征在于,还包括步骤S6:基于S5所得三次数据生成数据报表,所述数据报表用于显示基于同一关键词的语音频次和语音所处时间段。
3.如权利要求1所述直播平台语音收集方法,其特征在于,还包括步骤S7:基于S6所得数据报表生成数据谱图,该数据谱图中的x轴为时间t、y轴为语音频次。
4.一种直播平台语音收集系统,其特征在于,包括:收集模块(1),一次筛选模块(2),转化模块(3),存储模块(4),二次筛选模块(5),排序模块(6)、制表模块(7)和制图模块(8);
所述收集模块(1)用于收集用户在直播平台上操作产生的原始语音文件;所述一次筛选模块(2)用于读取收集模块(1)、筛除原始语音文件中的破损文件;所述转化模块(3)用于读取一次筛选模块(2)、将未破损的语音文件转化为文本文件;所述存储模块(4)用于将转化模块(3)生成的文本文件按对应用户ID进行存储;所述二次筛选模块(5)用于对存储模块(4)进行清洗、筛除含有乱码的文本文件;所述排序模块(6)用于对未含乱码的文本文件进行关键词抓取、并依据关键词进行排序;所述制表模块(7)用于基于排序模块(6)的排序结果生成数据报表;所述制图模块(8)用于基于所述数据报表生成数据谱图。
5.一种计算机可读存储介质,所述计算机可读存储介质中存有计算机程序,其特征在于:所述计算机程序在被执行时实现如权利要求1-3任一项所述直播平台信息审核方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全息空间(深圳)智能科技有限公司,未经全息空间(深圳)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010066065.1/1.html,转载请声明来源钻瓜专利网。