[发明专利]一种基于选择单元的主题建模方法有效

申请号：	201310410816.7	申请日：	2013-09-10
公开（公告）号：	CN103559193A	公开（公告）日：	2014-02-05
发明（设计）人：	汤斯亮;张寅;王翰琪;鲁伟明;吴飞;庄越挺	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	张法高
地址：	310027 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于选择单元主题建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及多媒体检索，尤其涉及一种基于选择单元的主题建模方法。

背景技术

目前，随着互联网架构、存储科技及其他有关技术的发展，各种各样模态的多媒体数据，如新闻，图片，以及声音和视频等越来越多。飞速增长的多媒体数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样本以外，也带来了如何对大规模数据进行自动文档聚类的挑战。为了应对这一挑战，许多多媒体检索及整合应用在其核心算法中使用了非监督层次化贝叶斯模型（或称主题模型），如LDA（隐狄利克雷分配，一种广泛的传统主题模型）及其扩展等。从2003年被提出直至今日，LDA及其衍生模型已经作为多种主题建模应用的核心算法，被用于解决文档摘要、跨数据集建模和文档主题演化追踪等多种问题和挑战，并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比，主题模型在可观测的文档层和单词层间增加了一个隐含的主题层，并认为文档是包含有一个或多个主题，而每个主题又是不同比例词的组合。新增加的主题这一隐含层能使用户更好地理解一篇文档所涵盖的内容（相当于为文档加上了诸如“体育”、“社会”等一个或多个类别标签，而不是提供词的频数统计），而且在应用处理海量数据时起到了降维的效果。主题模型最初被用于处理文本数据，新闻报道和科学论文等；由于图像数据和文本数据具有某种程度上的同质性，因此在将图像中的特征点处理为视觉单词后，也可以使用主题建模方法对图像数据进行归纳整合，主题模型及以其作为核心算法的各类应用也因此具有处理多种模态数据的能力。

LDA等经典主题模型的一个核心假设是对文档的BoW表达（词袋表达）。这种表达方式假设每篇文档中词与词之间没有关联，并且相互之间的位置可互换。BoW假设在数学上易于推导，为主题模型带来了计算上的方便和处理数据时的快捷。然而，这样的假设实际上是过于简单的，因为文档中的一些单词（或图片中的视觉单词）受其外部的片段结构（如文本中的句子或段落，以及图片中的区域等）限制，是不能与所属片段结构之外的单词相互交换的。作为对传统主题建模方法的改进，一些应用转而采用较新提出的模型，如LDCC及Spatial-LTM等，开始在对文本、图像等离散型数据的归纳整合中将文档与词之间的片段结构（如前文所述的语句或图像区域等）作为对词分配主题时的结构限制而纳入建模过程。然而，这些模型一般对（视觉）单词施加过强的结构限制，认为其必须服从于所属片段结构的主题，而不考虑该单词表达其他主题或是噪声的可能性。因此，根据（视觉）单词本身的特征对其选择性地施加结构限制，从而使整体算法以及采用算法的应用能够更加适应现实中的多媒体数据是主题建模领域研究的新方向。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于选择单元的主题建模方法。

基于选择单元的主题建模方法包括如下步骤：

1.根据用户的查询请求以及是要查询文本数据或图像数据提取多媒体数据库中的搜索结果；

2.如果查询请求是针对文本数据的，提取搜索到的文本数据中的单词、片段结构和单词特征，如果查询请求是针对图像数据的，提取搜索到的图像数据中的视觉单词、片段结构和视觉单词特征；

3.根据系统自动设定或用户指定的参数，确定建模采用的主题数T；

4.对于数据集包含的每个片段结构，随机地分配T个主题中的一个作为片段结构的主题；

5.对于数据集包含的每个单词，随机地分配T个主题中的一个作为单词主题；

6.对于数据集包含的每个单词，随机地分配一个0-1二元选择子，选择子用于指定每个单词被分配到其所属的片段结构的主题或是其自身的主题上；

7.通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子；

8.根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息；

9.根据选择子最终分配结果向用户反馈具有各种特征的单词表达它们所在片段结构的主题的能力。