[发明专利]一种分析文本数据潜在主题短语的方法及系统有效

申请号：	201910354460.7	申请日：	2019-04-29
公开（公告）号：	CN110134951B	公开（公告）日：	2021-08-31
发明（设计）人：	马甲林;张琳;程清雯	申请（专利权）人：	淮阴工学院
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	王恒静
地址：	223005 江苏省淮安市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种分析文本数据潜在主题短语的方法及系统，该方法包括：采集文本数据集，并对文本数据集进行分词，得到文本数据集的词语表现形式；根据文本数据集的词语提取词语搭配后形成的有效短语，得到未搭配成有效短语的词语与短语集的混合表现形式；对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型；构建DR‑Phrase LDA并求解各个参数；对DR‑Phrase LDA训练，并根据训练结果输出文本数据潜在的主题短语。本发明采用基于词向量的短语主题模型，该模型在概率主题模型训练中借助汉语言学规律来合理提升模型训练中短语的统计信息，具体采用词向量的方法度量短语成分词之间的关系，定量反映词在文本整体和短语局部中的语义关系，使得模型精度更高。
搜索关键词：	一种分析文本数据潜在主题短语方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种分析文本数据潜在主题短语的方法，其特征在于，该方法包括：(1)采集文本数据集，并对所述文本数据集进行分词，得到文本数据集的词语表现形式；(2)根据文本数据集的词语提取词语搭配后形成的有效短语，得到未搭配成有效短语的词语与短语集的混合表现形式；(3)对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型；(4)构建基于词向量的短语主题模型DR‑Phrase LDA并求解各个参数；(5)对所述DR‑Phrase LDA训练，并根据训练结果输出文本数据潜在的主题短语。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于淮阴工学院，未经淮阴工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910354460.7/，转载请声明来源钻瓜专利网。

上一篇：一种字词结合的文本自动校对方法
下一篇：一种错误文本拒识方法、装置及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种分析文本数据潜在主题短语的方法及系统有效

专利文献下载