[发明专利]一种分析文本数据潜在主题短语的方法及系统有效
申请号: | 201910354460.7 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110134951B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 马甲林;张琳;程清雯 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王恒静 |
地址: | 223005 江苏省淮安市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分析 文本 数据 潜在 主题 短语 方法 系统 | ||
本发明公开了一种分析文本数据潜在主题短语的方法及系统,该方法包括:采集文本数据集,并对文本数据集进行分词,得到文本数据集的词语表现形式;根据文本数据集的词语提取词语搭配后形成的有效短语,得到未搭配成有效短语的词语与短语集的混合表现形式;对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型;构建DR‑Phrase LDA并求解各个参数;对DR‑Phrase LDA训练,并根据训练结果输出文本数据潜在的主题短语。本发明采用基于词向量的短语主题模型,该模型在概率主题模型训练中借助汉语言学规律来合理提升模型训练中短语的统计信息,具体采用词向量的方法度量短语成分词之间的关系,定量反映词在文本整体和短语局部中的语义关系,使得模型精度更高。
技术领域
本发明涉及文本数据挖掘分析领域,具体涉及一种分析文本数据潜在主题短语的方法及系统。
背景技术
随着信息技术的发展,各个领域累积了大量的电子文本,导致了信息过载。为了帮助人们快速检索、查找和有效利用这些信息,文本语义及结构分析成为当今研究热点之一。其中从文本数据中分析潜在的主题信息,是信息检索、推荐系统、自动文摘等高级应用系统的关键技术之一。现有的常用方法采用LDA、PLDA等传统以“词袋”为基础的概率主题模型进行文本主题分析。这些方法分析所得的主题结果以主题词形式呈现,而人类自然语言习惯以短语块形式表达语义,因此这些方法获取的主题结果存在可读性、一致性和可视化差等缺陷。
目前同类方法有两种策略:第一种先从文本数据中提取短语后再训练主题模型,由于短语缺乏统计信息导致这类方法在模型训练过程短语出现概率极低,无法有效体现在主题短语结果中;第二种先训练主题模型获取主题词,再有主题词合成短语,由于汉语用词灵活多变,这种后期合成的主题短语质量也较差。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种分析文本数据潜在主题短语的方法,该方法克服了传统以“词袋”为基础的主题模型训练所得主题结果存在可读性、一致性和可视化差的缺陷;并且解决了同类方法由于短语缺乏统计信息所导致的无法获取有效主题短语结果的问题;本发明还提供一种分析文本数据潜在主题短语的系统。
技术方案:本发明所述的一种分析文本数据潜在主题短语的方法,该方法包括:
(1)采集文本数据集,并对所述文本数据集进行分词,得到文本数据集的词语表现形式;
(2)根据文本数据集的词语提取词语搭配后形成的有效短语,得到未搭配成有效短语的词语与短语集的混合表现形式;
(3)对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型;
(4)构建基于词向量的短语主题模型DR-Phrase LDA并求解各个参数;
(5)对所述DR-Phrase LDA训练,并根据训练结果输出文本数据潜在的主题短语。
进一步地,包括:
所述步骤(2)中,所述有效短语包括n元短语,n元为组成短语的词语个数,所述根据文本数据集的词语提取词语搭配后形成的有效短语,具体包括:
(21)统计文本数据集的双词语或短语搭配共现频率,构成二元短语候选集;
(22)计算二元短语候选集score(wi,wj)分值,选取分值高的前m个构成正式的二元短语,并加入到短语集中,同时在步骤(1)所述的文本数据集的词语表现形式中更新相应的词语为所得短语;
(23)迭代步骤(21)(22)计算得到的所述二元短语与其他词语或短语搭配组成的n元短语,依次加入到短语集中。
进一步地,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910354460.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置