[发明专利]一种基于爬虫的弹幕播报分析方法有效

申请号：	202210250170.X	申请日：	2022-03-15
公开（公告）号：	CN114598899B	公开（公告）日：	2023-06-16
发明（设计）人：	李玺;彭亮;冯凯;王元卓	申请（专利权）人：	中科大数据研究院
主分类号：	H04N21/2187	分类号：	H04N21/2187;H04N21/235;H04N21/25;H04N21/435;H04N21/466;H04N21/488;G06F16/951;G06F16/957;G06F16/958;G06F40/242;G06F40/284;G06F40/289
代理公司：	郑州明华专利代理事务所(普通合伙) 41162	代理人：	叶朝辉
地址：	450000 河南省郑州***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于爬虫弹幕播报分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于爬虫的弹幕播报分析方法，其特征在于：包括以下步骤：

步骤一、选择直播平台，准备抓包工具，打开平台网页或APP向直播源发起请求，查看弹幕数据的响应内容，从数据包提取出消息传输协议类型；

步骤二、通过爬虫采集弹幕并将数据推送至消息列队，具体步骤为：

（1）先创建一个消息队列接收和推送弹幕数据；

（2）根据获得的数据包信息，通过编程语言构建出相同的请求报文；

（3）通过编程语言的请求库向服务端发起模拟请求；

（4）接收服务端返回的响应信息，构建解析规则从中提取出每一条弹幕文字信息；

（5）将每一条弹幕推送到消息队列中，等待服务端接收；

步骤三、本地轮询接收消息队列数据并进行语音转换和存储，具体步骤为：

（1）在本地创建一个接收消息队列中数据的服务；

（2）等待消息队列推送数据，对接收到的弹幕数据进行清洗并标注上当前时间戳，标注后的数据存储到数据库中等待后续分析；

（3）把每一条弹幕信息分别进行文字语音转换；

（4）根据标注的时间戳按序生成本地语音文件；

步骤四、按需读取文件并进行语音播报；其中读取文件并进行语音播报的规则是：当语音目录不为空或者每当有语音文件生成时扫描本地语音文件，根据标注的顺序播放语音文件，播放后根据标注对播报后的语音文件进行删除；

步骤五、提取出指定时间段的弹幕数据，通过数据挖掘算法对用户画像、直播热点以及舆情演化进行分析；具体的：

通过词频统计和分组统计分析用户画像和直播热点；其中词频统计方法为：先通过jieba进行文本分词，然后通过文本遍历提取出现次数较多的词汇，最后通过 TF/IDF算法计算出现次数较多词汇的词频

，

其中，当 KW 为待计算词频的词汇时，WN为某段直播弹幕中KW出现的次数，WA为某段直播弹幕的总词数，DA为总直播数，ZN为出现KW的直播数，WF为词频；

分组统计方法为：根据时间戳对每分钟内的弹幕数量进行分组统计，统计出数量最多的分组中出现的弹幕词汇，然后将其和词频统计中计算的词汇和词频进行匹配，得出直播中的热点词汇即为直播热点；

通过AdaBoost算法对每条弹幕进行情绪分类，将情绪分类结果按照时间形成时间序列来直观的查看在不同时间节点中用户对直播状态的舆情演化，然后通过LSTM模型进行时间序列预测，预测下段直播中舆情演化趋势较大的时间段，根据预测结果可让从业人员提前制定运行策略和优化直播效果。

2.根据权利要求1所述的基于爬虫的弹幕播报分析方法，其特征在于：步骤二中的步骤（2）中所述编程语言为Python语言、java语言、go语言的任一种，其中Python语言使用requests请求库，java语言使用httpclient请求库，go语言使用req请求库。

3.根据权利要求1所述的基于爬虫的弹幕播报分析方法，其特征在于：步骤三中的步骤（2）中对弹幕数据进行清洗是根据自定义的风险词典，过滤掉包含风险词汇的弹幕；同时根据清洗规则过滤掉一些噪音数据。

4.根据权利要求1所述的基于爬虫的弹幕播报分析方法，其特征在于：步骤三中的步骤（2）中对弹幕数据进行标注是根据消息队列的推送时间对弹幕信息进行标注，以时间戳为标注信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科大数据研究院，未经中科大数据研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210250170.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载