[发明专利]一种主题挖掘模型中主题维度自适应确定方法有效
申请号: | 202010040487.1 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111241846B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 钟玲;王建勋;赵冉升;肖博;王昱;李其泽 | 申请(专利权)人: | 沈阳工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/31 |
代理公司: | 沈阳智龙专利事务所(普通合伙) 21115 | 代理人: | 宋铁军 |
地址: | 110870 辽宁省沈阳*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题 挖掘 模型 维度 自适应 确定 方法 | ||
本发明涉及主题挖掘模型方法,特别是涉及一种主题挖掘模型中主题维度自适应确定的方法。该方法先获取文档,分词;然后基于潜在语义分析模型,进行主题信息挖掘;主题信息挖掘的具体步骤包括:预设参数,通过吉布斯采样更新参数,获取当前参数下待分析文档的主题分布信息;通过计算困惑度,判断主题信息获取的准确性,然后根据加速递增,缓步搜索,单步徘徊原则自适应确定主题维度,从而获得最准确的主题分布信息。本发明为解决采用主题挖掘模型进行文本主题信息挖掘过程中,对挖掘效果影响较大的主题维度目前主要靠经验确定的问题,本发明能够在较短时间内完成主题维度的确定,获得更快更好的主题信息挖掘效果。
技术领域:
本发明涉及主题挖掘模型方法,特别是涉及一种主题挖掘模型中主题维度自适应确定的方法。
背景技术:
文本分析领域中主题信息挖掘技术受到国内外研究者的广泛关注,文本主题是指文本消息中所涉及到的话题,是对文本消息的高度抽象,是离散的,无序的数据。主题信息挖掘从最初基于用户、标题等显式特征的方法,发展到基于概率的方法,以及目前的基于潜在语意的方法,研究不断深入,现阶段文本主题挖掘技术已然己经成为自然语言处理(Natural Language Processing,NLP)领域最重要最受研究者关注的技术之一,被广泛应用于智能问答、电子商务、知识库构建、邮件方面。然而,由于自然语言本身的复杂性,如何从丰富的非结构化文本数据中提取出精简且有价值的关键主题信息仍然是目前研究的一个难点。
传统主题挖掘算法立足于文本的显式特征,如采用词空间上的相似性度量指标等,基于显式特征的主题挖掘算法中使用最为广泛的是TF-IDF算法(TermFrequency–Inverse Document Frequency,词频-逆向文件频率)以词语的出现次数和词频权重来计算其排名,并选取最靠前的几个词语作为关键字,即只考虑了主题字面上的相似性,因此无法找到与当前话题最相似的其他话题。因此,基于潜在语意的文本信息挖掘技术逐渐受到重视。
首个基于潜在语意分析的方法是LSA(latent semantic analysis),这是由DeerWester等人提出的,在此基础上,Hofman提出了PLSA(probabilistic latent semanticanalysis)方法。
目前,Blei等提出的LDA(Latent Dirichlet Allocation)模型是最重要的基于潜在语义的主题分析挖掘模型,基于该模型很多学者根据应用场景的不同做出不同改变。Griffiths使用LDA模型来分析《美国科学院院报》科技论文的摘要,挖掘出其中隐含的科学主题,并且进一步分析研究出其中"热主题"和"冷主题"随时间变化的演化情况,在LDA的基础上提出使用基于马尔科夫链的蒙特卡洛方法来近似逼近,后得到广泛使用。MichalRose-Zvi等提出作者主题模型(Author-Topic Model,ATM),从作者产生文档的角度来考虑文档的生成,并且提出一个名为CiteSeerX的系统,用以研究科学主题与科技论文作者之间的关系。后续有大量研究者提出对不同情境之下的主题模型,如动态主题模型,高阶主题模型,多通路主题模型,分布式主题模型。随后,以微博中短文本为实验,陈等提出基于情感分类的主题模型SC-LDA。在各类主题模型中,准确、快速、高效的抽取主题成为新的研究方向。
大量研究证实主题挖掘模型中主题抽取效果与潜在主题维度K值有直接关系,主题抽取的结果对K值非常敏感。基于此,国内外不少学者对LDA模型展开了相关研究,比较常用方法有以下三种:
(1)Blei等采用困惑度(Perplexity)作为评价LDA模型好坏的标准,通过选取困惑度最小的LDA模型参数确定最优的主题。但是无法自动适应确定主题维度,仍需要通过人为的不断实验来确定主题维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳工业大学,未经沈阳工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010040487.1/2.html,转载请声明来源钻瓜专利网。