[发明专利]基于LDA的母婴问题聚类分析方法、装置、计算机存储介质在审
申请号: | 202010931361.3 | 申请日: | 2020-09-07 |
公开(公告)号: | CN112069318A | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 张姗姗;赵永强;廖望梅;李乘风;王光勇 | 申请(专利权)人: | 北京崔玉涛儿童健康管理中心有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06K9/62 |
代理公司: | 北京绘聚高科知识产权代理事务所(普通合伙) 11832 | 代理人: | 罗硕 |
地址: | 100000 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda 母婴 问题 聚类分析 方法 装置 计算机 存储 介质 | ||
本发明实施例提供的一种基于LDA的母婴问题聚类分析方法、装置、计算机存储介质;先后进行依存句法分析、核心主体词抽取等处理形成聚类语料;在初始主题数的条件下结合LDA算法对聚类语料库实施建模求解得到各主题以及主题下的关键词集合;计算各个主题与整体所有主题的相关性数值(外聚整合计算)再进行计算同一主题下任意两个关键词之间互信息值(内聚计算);相关性数值和互信息值进行加权得到各主题的信息值:不断验算修改后的初始主题数直至满足预设目标条件,验算得到目标主题数以及最优聚类分析结果;通过上述聚类分析方法,可实现对母婴领域聚类语料库实现精准高效聚类分析,进而对聚类语料库具有重要意义。
技术领域
本发明涉及母婴问题互联网信息分析技术领域,具体地涉及一种基于LDA的母婴问题聚类分析方法、装置、计算机存储介质。
背景技术
当今社会,互联网已经渗透到人们的日常生活中,微博、论坛、博客等即时通信工具已经成为人们获取信息,进而发表看法、传播信息的重要渠道。同时借助移动终端网络的发展,多种应用APP也得到了迅速的发展;伴随着母婴类应用APP的发展,带来的后果是文本信息呈现爆炸式增长,其中母婴类应用APP其基本都是母婴相关信息,涉及到的母婴问题占据了相当重要的比例。但是,如何从众多母婴问题中快速获取到主题类别,从而有效的捕捉热门主题就变得尤为重要。我研究人员发现,由于中文句子语法结构的复杂,语义的多变性等特点以及凭借直觉手动对聚类主题数进行设置与调整,使得获得最优聚类结果,大大增加难度。
常规的现有技术技术方案涉及中文句子的语义分析方法,检索如下:举例说明,现有技术中存在一种短文本聚类分析方法(对比专利1:CN201811517917.3短文本聚类分析方法、装置和终端设备);对比专利1所涉及方法包括:获取待聚类的短文本数据集,并对短文本数据集进行预处理得到包括至少三种词性的初始词集;对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;根据主题特征词集和主题关联词集的相关性确定预设个数的主题特征词和主题关联词,主题特征词与主题关联词一一对应组成知识对;将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。上述对比专利1优化了文本分析算法,能够更准确地进行短文本的情感主题聚类,提高短文本聚类的效率。
常规的现有技术技术方案还涉及了文本聚类分析方法,举例说明如对比专利2:CN201410432539.4一种基于文本分类和聚类分析的网络热点事件发现方法;将物理或抽象对象的集合分成由类似对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。话题发现与跟踪技术是一项针对新闻信息进行话题的提取和后续跟踪的信息处理技术。对比专利2认为热点事件发现是要发现某个以前未知的热点话题,它实际上是一个聚类过程,聚类形成的每个簇都表示一个话题,话题可以通过不同的聚类方法来发现。不过,单纯通过聚类发现热点事件,存在准确率不高和效率低下的问题。对比专利2提出的一种准确率高且效率高达方法,包括利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词,再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量,并确定向量中每一维的权重,然后对各个测试文本进行分类,再对分好类的各个类别的测试文本分别进行聚类分析,得到各个类别的热点簇,再分析得到代表热点事件的特征词,进而分析热点各个特征词的词性等,再利用相关语言知识,通过必要的语言组织生成热点事件的描述。
终上所述,专家学者们提出了采用相似度的方法对主题间各关键词的相似度进行计算,但是,现有技术的上述操作并没有考虑主题内部关键词的相关性。同时,由于母婴问题中通常包含多个干扰词,并且通常干扰词涉及多个类别,这在一定程度上影响聚类的精度,研究发现应用上述现有方法聚类分析母婴问题可能出现较大偏差,聚类精度不高。
发明内容
有鉴于此,本发明提供一种基于LDA的母婴问题聚类分析方法、装置、计算机存储介质,用以解决上述技术问题。
一方面,本发明实施例提供了一种基于LDA的母婴问题聚类分析方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京崔玉涛儿童健康管理中心有限公司,未经北京崔玉涛儿童健康管理中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010931361.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:目标物体的控制方法、装置、电子设备及存储介质
- 下一篇:一种真空泵