[发明专利]一种基于LDA的生物医疗图像的标注系统及方法有效

申请号：	201410120529.7	申请日：	2014-03-27
公开（公告）号：	CN103942274B	公开（公告）日：	2017-11-14
发明（设计）人：	徐颂华;林谋广;姜涛;薛凯军;肖剑	申请（专利权）人：	东莞中山大学研究院;中山大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	523000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lda 生物医疗图像标注系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于LDA的生物医疗图像的标注系统及方法。

背景技术

随着数字影像技术的发展和数码相机等可拍照设备的日益普及，各种各样的图像数量呈现几何级的飞速增长。而同时互联网的快速发展也使得图像传播与共享变得更加快捷。为了有效地组织、查询与浏览如此大规模的图像资源，图像检索技术应运而生，成为计算机视觉领域的研究重点。

现有的图像检索方法主要分为两种：基于内容的图像检索（Content-Based Image Retrieval）和基于文本的图像检索（Text-Based Image Retrieval）。基于内容的图像检索需要用户提供一幅图像作为查询，系统提取图像的底层视觉特征，如颜色、纹理和形状等，为图像建立视觉索引，然后根据数据库中图像与查询间的视觉相似性找出匹配项，实现检索的目的。由于图像底层视觉特征与高层语义概念之间存在不一致性，即所谓的“语义鸿沟（Semantic Gap）”，基于内容的图像检索的性能难以令人满意。基于文本的图像检索，需要对图像事先建立文本索引，用户检索时只要提交文本作为查询，系统根据文本的相关性匹配找出相似的图像返回，这样对图像的检索就转化为对文本关键词的检索。

与基于内容的图像检索相比，基于文本的图像检索只需要用户提交文本关键词，方便快捷，更受广大用户的青睐，由此也成为主流商业化图像搜索引擎的主要方式。但是这种方式需要对图像建立文本索引，也就是实现图像的语义标注，这是基于文本的图像检索技术中极具挑战的一项工作。实现图像的语义标注，已成为基于文本的图像检索技术的重中之重。一种传统的方式是进行人工标注，但是这种方式耗时费力，尤其是面对大规模的网络图像时，它显然已经无法胜任。因此，如何摆脱人工干预，并快速、有效地实现对图像的自动语义标注，变得十分重要。

为了实现图像的自动化标注，现有技术已有的一种方法是将图像进行分类，然后把分类的结果当作图像的标注。具体而言，将每个语义关键词看成一个类别标记（Label），并基于语料库训练一些分类器，然后用这些分类器对未标注图像进行分类，所分类别即为该图像的标注。目前已有许多成熟的分类算法，例如支持向量机，隐形马尔科夫模型等等。

然而，虽然采用分类的方法进行图像标注，依赖于分类算法的准确性，目前的分类算法虽然准确性比较高，但仍然会有一定的误差。另外，现有的分类算法大多是二元分类器，例如支持向量机，那么对于有多重标注的图像，就需要设计多个分类器，并对图像进行多次分类，效率也不高。

因此，有必要提供一种基于LDA的生物医疗图像的标注系统及方法来满足现有需求。

发明内容

本发明的目的是提供一种准确性高、方便快捷的基于LDA的生物医疗图像的标注系统及方法。

因此，本发明提供了一种基于LDA的生物医疗图像的标注系统，包括LDA训练模块、主题词抽取模块、主题词精炼模块、索引上下文句子模块、上下文生成模块、标注产生模块，所述LDA训练模块用于对LDA模型进行训练；所述主题词抽取模块用于对每幅生物医疗图像的说明文字进行LDA建模，然后从所建模型中抽取所有的主题词；所述主题词精炼模块对所述主题词抽取模块所产生的主题词集合进行优化；所述索引上下文句子模块用于从生物医疗图像的文本文件中索引出与主题词关联的句子集；所述上下文生成模块从每个主题词所对应的句子集中选取一个最密切的句子，然后集合所有最密切的句子，构成生物医疗图像的上下文；所述标注产生模块通过LDA训练模块得到的LDA模型对生物医疗图像的上下文进行建模，得到生物医疗图像的主题分布和单词分布，然后将主题-单词分布中每个单词的概率乘以对应主题的概率，所得结果作为这个单词的权值，再按照权值从大到小的顺序将所有单词排序，选取前几个单词作为生物医疗图像的标注词。

较佳地，所述LDA模型的数据集是所有生物医疗图像的说明文字，从每幅生物医疗图像所对应的文本文件中抽取节点的说明文字，将所有图像的说明文字集合构成了LDA模型的训练数据集。

较佳地，所述训练模块采用Gibbs采样方法对LDA模型进行训练，先抽样出每个单词所对应主题的分布，然后根据这个分布推算出文档-主题分布和主题-单词分布。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东莞中山大学研究院;中山大学，未经东莞中山大学研究院;中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410120529.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于LDA的生物医疗图像的标注系统及方法有效

专利文献下载