[发明专利]一种基于选择单元的主题建模方法有效
申请号: | 201310410816.7 | 申请日: | 2013-09-10 |
公开(公告)号: | CN103559193A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 汤斯亮;张寅;王翰琪;鲁伟明;吴飞;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 选择 单元 主题 建模 方法 | ||
技术领域
本发明涉及多媒体检索,尤其涉及一种基于选择单元的主题建模方法。
背景技术
目前,随着互联网架构、存储科技及其他有关技术的发展,各种各样模态的多媒体数据,如新闻,图片,以及声音和视频等越来越多。飞速增长的多媒体数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样本以外,也带来了如何对大规模数据进行自动文档聚类的挑战。为了应对这一挑战,许多多媒体检索及整合应用在其核心算法中使用了非监督层次化贝叶斯模型(或称主题模型),如LDA(隐狄利克雷分配,一种广泛的传统主题模型)及其扩展等。从2003年被提出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘要、跨数据集建模和文档主题演化追踪等多种问题和挑战,并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加了一个隐含的主题层,并认为文档是包含有一个或多个主题,而每个主题又是不同比例词的组合。新增加的主题这一隐含层能使用户更好地理解一篇文档所涵盖的内容(相当于为文档加上了诸如“体育”、“社会”等一个或多个类别标签,而不是提供词的频数统计),而且在应用处理海量数据时起到了降维的效果。主题模型最初被用于处理文本数据,新闻报道和科学论文等;由于图像数据和文本数据具有某种程度上的同质性,因此在将图像中的特征点处理为视觉单词后,也可以使用主题建模方法对图像数据进行归纳整合,主题模型及以其作为核心算法的各类应用也因此具有处理多种模态数据的能力。
LDA等经典主题模型的一个核心假设是对文档的BoW表达(词袋表达)。这种表达方式假设每篇文档中词与词之间没有关联,并且相互之间的位置可互换。BoW假设在数学上易于推导,为主题模型带来了计算上的方便和处理数据时的快捷。然而,这样的假设实际上是过于简单的,因为文档中的一些单词(或图片中的视觉单词)受其外部的片段结构(如文本中的句子或段落,以及图片中的区域等)限制,是不能与所属片段结构之外的单词相互交换的。作为对传统主题建模方法的改进,一些应用转而采用较新提出的模型,如LDCC及Spatial-LTM等,开始在对文本、图像等离散型数据的归纳整合中将文档与词之间的片段结构(如前文所述的语句或图像区域等)作为对词分配主题时的结构限制而纳入建模过程。然而,这些模型一般对(视觉)单词施加过强的结构限制,认为其必须服从于所属片段结构的主题,而不考虑该单词表达其他主题或是噪声的可能性。因此,根据(视觉)单词本身的特征对其 选择性地施加结构限制,从而使整体算法以及采用算法的应用能够更加适应现实中的多媒体数据是主题建模领域研究的新方向。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于选择单元的主题建模方法。
基于选择单元的主题建模方法包括如下步骤:
1.根据用户的查询请求以及是要查询文本数据或图像数据提取多媒体数据库中的搜索结果;
2.如果查询请求是针对文本数据的,提取搜索到的文本数据中的单词、片段结构和单词特征,如果查询请求是针对图像数据的,提取搜索到的图像数据中的视觉单词、片段结构和视觉单词特征;
3.根据系统自动设定或用户指定的参数,确定建模采用的主题数T;
4.对于数据集包含的每个片段结构,随机地分配T个主题中的一个作为片段结构的主题;
5.对于数据集包含的每个单词,随机地分配T个主题中的一个作为单词主题;
6.对于数据集包含的每个单词,随机地分配一个0-1二元选择子,选择子用于指定每个单词被分配到其所属的片段结构的主题或是其自身的主题上;
7.通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子;
8.根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息;
9.根据选择子最终分配结果向用户反馈具有各种特征的单词表达它们所在片段结构的主题的能力。
所述的提取文本数据中单词、片段结构和单词特征的步骤如下:
1.采用自然语言处理工具对文档进行分句,以得到的语句作为文本数据的片段结构;
2.采用自然语言处理工具标注每个词的词性,以得到的词性标注结构作为各单词的特征;
3.去除其中无用的高频词以及频数过低的生僻词;
4.统计处理后文本中所有出现过的词,组成词汇表。
所述的提取图片数据中视觉单词、片段结构和视觉单词特征的步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310410816.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:负压式吸收式溴化锂洁净干燥系统
- 下一篇:保健混纺织物的生产方法