[发明专利]弹幕信息处理方法、装置、电子设备和存储介质有效
申请号: | 202110134453.3 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112911326B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 许丹;杨德杰 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | H04N21/2187 | 分类号: | H04N21/2187;H04N21/4788;H04N21/435;G10L15/26;G06F40/284;G06F40/289;G06F40/30;G06F16/33;G06F16/35 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 代文成 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 弹幕 信息处理 方法 装置 电子设备 存储 介质 | ||
1.一种弹幕信息处理方法,其特征在于,包括:
获取从直播视频数据中汇总的弹幕信息,其中,所述弹幕信息包括弹幕文字和发布时间;
根据所述弹幕文字确定所述弹幕信息所属的意图类别,根据所述弹幕信息和对应的所述意图类别建立意图类别对应表;
根据所述发布时间从所述直播视频数据中获取所述弹幕信息指向的内容片段信息,根据所述内容片段信息获取所述弹幕信息指向的文本数据,其中,所述内容片段信息为所述弹幕信息指向的所述直播视频数据对应的音频信息,将所述音频信息转化为所述文本数据;
根据所述文本数据确定所述弹幕信息所指向的主题点,根据所述弹幕信息和对应的主题点建立主题点对应表;
根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息,其中,所述意图类别汇总信息包括意图类别以及指向所述意图类别的弹幕信息数量;
所述根据所述弹幕文字确定所述弹幕信息所属的意图类别,包括:
获取历史弹幕文本,按照预设意图类别对所述历史弹幕文本进行标注;
对所述历史弹幕文本进行分词处理,得到所述历史弹幕文本的分词词语;
根据预先确定的词语与词向量的对应关系,确定所述历史弹幕文本中每个分词词语对应的词向量,生成所述历史弹幕文本的词向量矩阵;根据所述历史弹幕文本的词向量矩阵构建历史数据集合;
对所述弹幕文本进行分词处理,得到所述弹幕文本的分词词语;根据预先确定的词语与词向量的对应关系,确定所述弹幕文本中每个分词词语对应的词向量,生成所述弹幕文本的词向量矩阵;
基于余弦相似度计算所述弹幕文本的词向量矩阵与所述历史数据集合中每个所述历史弹幕文本的词向量矩阵的余弦距离,选择所述余弦距离最近的预设数量个历史弹幕文本;
对所选择的预设数量个历史弹幕文本的意图类别数量分布进行统计,将数量最多的意图类别作为所述弹幕文本的意图类别;
所述根据所述文本数据确定所述弹幕信息所指向的主题点,包括:
将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点;
所述LDA主题模型的训练步骤包括:
将不同类型的课程讲义文本按照预设长度进行自然段拆分,得到文本文件,构建课程讲义语料库;
将所述课程讲义语料库中的每个文本文件依次进行分词处理、去标点处理以及去停用词处理,得到每个所述文本文件的分词词语;
对所述课程讲义语料库中的所有文本文件的分词词语进行数量统计,根据统计结果对出现次数少于预设阈值的分词进行过滤,得到所述课程讲义语料库的词典;
根据所述词典,将所述课程讲义语料库中的所有文本文件转换为关于所述词典的稀疏矩阵;
预先设置主题数量参数为第一预设数量,采用最大期望算法建立初始的LDA主题模型;
将所述课程讲义语料库的稀疏矩阵输入至所述初始的LDA主题模型进行迭代训练,利用所述LDA主题模型训练时的聚词功能在所述课程讲义语料库经所述LDA主题模型训练后获得按设定主题数分别聚集成的第一预设数量个主题关联词集合;
针对每个所述主题关联词集合,根据所述主题关联词获取对应的主题点。
2.根据权利要求1所述的弹幕信息处理方法,其特征在于,所述直播视频数据为课程视频数据;
所述根据所述文本数据确定所述弹幕信息所指向的主题点之前,还包括:
根据课程的类别为每个课程类别创建一个专有词典表;
对每个所述专有词典表进行编辑,以在所述专有词典表中记录每个对应课程类别所涉及的专有名词;
对所述专有词典表进行存储;
相应地,所述将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点,包括:
读取所述课程视频数据的课程简介,识别所述课程视频数据的课程类别;
根据所述课程视频数据的课程类别,从所存储的多个专有词典表中调取与所述课程类别对应的专有词典表;
按照所调取的专有词典表对所述文本数据进行分词处理,得到所述文本数据的分词词语;
根据所述词典,将所述文本数据的分词词语转换为关于所述词典的稀疏矩阵;
利用所述LDA主题模型,对所述文本数据的稀疏矩阵进行主题识别,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110134453.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种AES运算的方法和设备
- 下一篇:一种音频特征提取方法、系统、设备及介质