[发明专利]一种基于LDA模型的歌曲分类方法有效
申请号: | 201710129308.X | 申请日: | 2017-03-06 |
公开(公告)号: | CN106951474B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 张翔;孙伟;余璇 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06F16/63 | 分类号: | G06F16/63;G06F16/61;G06F16/638 |
代理公司: | 上海三和万国知识产权代理事务所(普通合伙) 31230 | 代理人: | 陈伟勇 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明涉及模式识别领域,介绍了一种歌曲分类的方法。该歌曲分类方法主要是将歌曲库中的所有歌曲的相对音高以及分类数目作为LDA主题模型的输入,进而对歌曲库中的所有歌曲进行分类。这里的LDA主题模型分类方法是通过每首歌曲的相对音高之间的相似度将歌曲库中所有的歌曲分成用户指定类别数目。最终可以计算出每首歌主题类别的概率分布,即p(topic |
||
搜索关键词: | 一种 基于 lda 模型 歌曲 分类 方法 | ||
【主权项】:
一种基于LDA模型的歌曲分类方法,其特征在于包括步骤1.1和步骤1.2:步骤1.1:提取歌曲库中每首歌曲的相对音高集作为歌曲的标志数据用于分类;步骤1.2:基于用户输入的分类个数K与歌曲库中所有歌曲的相对音高集使用LDA模型对歌曲进行分类;步骤1.1包括以下步骤:步骤11:用户通过旋律提取算法提取出歌曲库中每首歌曲的音高集。这里音高按时间排序,可以通过设置采样频率的大小控制时间片的大小;步骤12:音高集中小于等于零的值视为无效信息;删除音高集中的无效信息,得到多个音高序列片段;步骤13:对照音高频率表去掉音高序列片段中每个音高的误差;步骤14:对每个音高片段做逆序相减运算并去掉每个音高序列片段的首个音高,从而得到了每首歌曲的相对音高集。其中等于零的相对音高对分类几乎没有影响,所以舍去相对音高集中等于零的相对音高;步骤15:将每首歌曲的相对音高集写入文档,每个相对音高之间以空格分开,一个段落代表一首歌曲;步骤1.2包括以下步骤:步骤21:读取文件并记录每首歌曲对应的相对音高集,扫描歌曲库中每首歌曲对应的相对音高对每个相对音高随机赋予一个小于分类个数的主题编号,记录下属于每个词分配到每一主题的频次,以及每首歌曲的相对音高分配到每一主题的频次;步骤22:基于LDA模型生成每首歌曲的原理推导出对相对音高的主题编号进行采样的采样公式,用于对每个相对音高的主题重新采样;采用吉布斯采样算法对相对音高的主题编号进行采样;这里吉布斯采样的公式为:步骤23:根据Gibbs Samping公式可以计算出从当前主题转移到各个主题的概率;根据转移概率对主题编号进行转移,并更新歌曲库相关记录数据。在吉布斯采样公式收敛前重复吉布斯采样过程,基于每一次采样的结果重新对每个相对音高的主题编号进行采样,直到吉布斯采样公式收敛,每个主题转移至另一主题的概率稳定;通过记录的数据计算出,每首歌曲属于每一类的概率;步骤24:LDA模型通过相对音高对歌曲库中歌曲进行分类之后,直接对新入库的歌曲进行分类;基于以上分类结果对新入库的歌曲进行分类时,首先对新的歌曲中的每个相对音高随机的赋一个topic编号;重新扫描新歌曲,按照Gibbs Samping公式对每个相对音高p,重新对它的topic进行采样;重复上一个过程直到Gibbs Samping公式收敛;最终可统计出新的歌曲的类别概率分布,根据所属类别概率的高低选择概率较高的类别作为该歌曲的所属类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710129308.X/,转载请声明来源钻瓜专利网。