[发明专利]一种面向乘客需求的地铁/高铁车载服务器视频更新方法在审
申请号: | 201410820591.7 | 申请日: | 2014-12-24 |
公开(公告)号: | CN104462544A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 王勇;康强;王志刚;赵晓光;张元庆 | 申请(专利权)人: | 大连海天兴业科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于信息技术领域,涉及到文本统计、文本分类和分布式计算,是一种面向乘客需求的地铁/高铁的车载服务器视频更新方法。本发明方法实施主要包括两个阶段,第一阶段是高频出现文本的统计,即根据乘客日常的搜索记录,采用并行分布式的统计方法,统计出现频次较高的若干搜索词条,这些搜索词条被认为是乘客当前需求的有一定热度的信息;第二阶段是对高频搜索词条进行合理分类,具体方法为首先对大量常用的搜索关键词进行标记以构建样本库,其次基于该样本库建立文本分类模型,最后将统计得到的高频搜索词条输送给分类模型对其进行分类,分类的目的是方便视频的上传和乘客的浏览下载。 | ||
搜索关键词: | 一种 面向 乘客 需求 地铁 车载 服务器 视频 更新 方法 | ||
【主权项】:
一种面向乘客需求的地铁/高铁车载服务器视频更新方法,其特征在于包括以下步骤:步骤一,获得所需要的搜索记录文本,这些文本通过用户在一些搜索引擎和视频网站上的搜素历史记录来获得,文本的内容是由若干的搜索词条组成;步骤二,在Hadoop平台下,基于MapReduce框架统计高频词条,包括两个阶段:Map阶段:将搜索记录文本分割为若干份,作为Map函数的输入,每个Map函数将所接收的文中的所有词条进行遍历,每个词条只要出现就进行标记一次,最终Map函数的输出为一组键值对;Reduce阶段:Hadoop会将Map阶段输出具有相同主键的值集合一起传递给Reduce函数,Reduce函数接收一个形式如<主键,值集>的输入,Reduce函数负责对值集进行处理,输出也是键值对的形式;统计出不同词条在搜索历史记录中出现的次数,然后采用排序算法对搜索词条出现的次数进行排序,筛选出一部分出现频次较高的热门词条;步骤三,采用朴素贝叶斯分类器将步骤2所得的高频词条进行分类整理首先,标记词条,构建训练样本集;其次,建立贝叶斯分类器模型:基于词条中的特征分布相互独立的前提条件,朴素贝叶斯分类器用如下的形式来表示:![]()
其中,ci为类别标签,d表示搜索的词条,θ表示与先验概率相关的参数;词条d由若干个词项组成,fj表示词项,m为词项个数;对于不同的类别,上述公式中的分母P(d|θ)是不变的,只要选择使得式(1)分子最大的类别作为目标类别即可;当前情况下,训练样本是已知的,通过训练样本来确定先验概率P(ci|θ)和似然函数项中的P(fj|ci,θ),即P(ci|θ)=Ni/N (2)![]()
其中,Ni表示训练样本集中属于类别ci的词条数,N表示训练样本集中的所有词条数,ni,j表示训练样本集中特征j在类别ci中出现的次数,m为词条d中的词项个数;最后,比较新词条属于所有类的几率,将该词条分到几率最大的那个类别中;步骤四,核实步骤3中分类器的分类结果,对于极个别的偏差进行人工整理,并将所有高频词条所相应的视频文件按类别上传到车载服务器中,整个车载服务器内视频的更新过程完毕。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海天兴业科技有限公司,未经大连海天兴业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410820591.7/,转载请声明来源钻瓜专利网。