[发明专利]一种基于Apriori算法的视频字幕网络用语词典构建方法和装置有效
申请号: | 201910817315.8 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110619073B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 吴霞 | 申请(专利权)人: | 北京影谱科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/289;G06F40/216;G06F40/242;G06K9/62;H04N21/235;H04N21/435 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 高镇 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 apriori 算法 视频 字幕 网络 用语 词典 构建 方法 装置 | ||
本申请公开了一种基于Apriori算法的视频字幕网络用语词典构建方法和装置,属于网络数据提取识别技术领域。该方法包括:从在线视频网站上爬取若干条字幕信息作为视频字幕数据,采用jieba分词对视频字幕数据进行分词,对分词后的语料集进行数据清洗,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中,对频繁项集采用互信息方式进行语义含义的标注,集合所有网络用语构成基于视频字幕的网络用语词典。本申请能够准确挖掘视频字幕中的网络用语并为其挖掘网络用语含义,通过新构建的网络用语词典能够从视频字幕的角度辅助进行视频分析。
技术领域
本申请涉及网络数据提取识别技术领域,特别是涉及一种基于Apriori算法的视频字幕网络用语词典构建方法和装置。
背景技术
随着互联网行业的高速发展,人们的娱乐方式也更加多样化,看电影、电视剧、纪录片、综艺节目等各种类型的在线视频成为越来越多人的娱乐和解压方式,随之而来的是不断增长的视频字幕文本,视频字幕中包含了视频的主题内容和核心思想,如何充分利用这些字幕文本数据挖掘其中包含的重要数据信息成为研究热点。
视频字幕文本通常包含许多特殊性质:(1)字幕以句子的形式出现,文本形式属于短文本行列;(2)视频字幕中包含许多新兴网络用语,网络用语不符合一般中文词语的构建规则,一般词性和词义难以理解因此很难全面对网络用语进行文本分析。对视频字幕进行数据挖掘可以判断该视频的核心内容,根据用户喜爱视频排行也可以挖掘用户喜爱或常用的词语或短句,但鉴于以上视频字幕文本的特殊性,如何更高效准确的挖掘视频字幕的数据信息值得考虑,尤其是其中的网络用语。
词典是一组包含常用语及其词性或性质的集合,目前常用的有中文情感词典,例如知网情感库HowNet词典、中国台湾大学通用中文情感词典NTUSD、大连理工大学的情感词汇本体词典等,情感词典是情感分析的重要工具,在一些无法采用有监督方法进行训练的数据集中大部分采用基于情感词典的方法进行情感分类。还有较为常用的中文词典有停用词词典,例如“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等各种停用词表,停用词典中一般包括了常用的标点符号、特殊符号、语气词、人称代词等等,去除停用词是文本处理的重要步骤,通过去除停用词操作可以删除文本中无用的干扰信息,增强后续数据分析的准确性。目前词典的构建的方法一般分为两大类。第一类是人工标注,即数据集的采集和标注完全依赖人工进行,目前通用的很多词典都是通过人工标注得来的,人工标注的好处是通过人为的监督能够得到较高质量的词典,但代价是人力、物力和时间的消耗,并且随着网络用语的快速更新换代和领域词的一词多义等特征,更多人采用第二类方法,即自动构建的方法。自动构建的方法是指在现有基础词典的基础上,采用扩充的方式将新词扩充至基础词典,从而构成新领域的词典。目前一般通过语义相似度的衡量进行词汇的扩充和词语性质的计算。
综上,不难发现,目前并没有涵盖大量网络用语的中文词典,且无法准确挖掘视频字幕文本中的网络用语,更无法准确计算网络用语的词汇含义和性质。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于Apriori算法的视频字幕网络用语词典构建方法,包括:
从在线视频网站上爬取若干条字幕信息作为视频字幕数据,组成抽取网络用语用的语料集;
采用jieba分词对视频字幕数据进行分词;
对分词后的语料集进行数据清洗,删除已知的基础词汇,构成由非基础词汇所构成的视频字幕文本,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中;
对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司,未经北京影谱科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910817315.8/2.html,转载请声明来源钻瓜专利网。