[发明专利]基于词共现的文本非负矩阵三分解联合聚类方法及系统在审
申请号: | 202111358208.7 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114003723A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 饶洋辉;刘海 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06F40/30;G06F17/16 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词共现 文本 矩阵 分解 联合 方法 系统 | ||
1.基于词共现的文本非负矩阵三分解联合聚类方法,其特征在于,包括以下步骤:
S1:获取文本数据集,对文本数据集进行预处理;
S2:基于预处理后的文本数据集构造文本特征矩阵、词共现矩阵和词重要性矩阵;
S3:构建非负矩阵三分解联合聚类模型,将文本特征矩阵、词共现矩阵和词重要性矩阵输入非负矩阵三分解联合聚类模型进行聚类,同时引入全局词向量表示正则项对非负矩阵三分解联合聚类模型进行迭代更新,得到文档聚类矩阵和词聚类矩阵。
2.根据权利要求1所述的基于词共现的文本非负矩阵三分解联合聚类方法,其特征在于,所述文本特征矩阵X为tf-idf特征矩阵,其公式如下所示:
Xij=tfi,j×idfi
其中,tfi,j表示词i在文档j出现的次数,其中N表示预处理后的文本数据集的文档数量,dfx是数据集中包含词i的文档数。
3.根据权利要求1所述的基于词共现的文本非负矩阵三分解联合聚类方法,其特征在于,所述词重要性矩阵H其中的元素Hij的构造方法如下所示:
其中,α表示权重指数,Cij表示词i和词j出现在同一个窗口中的次数,Cmax表示词共现矩阵中最大元素的值。
4.根据权利要求1所述的基于词共现的文本非负矩阵三分解联合聚类方法,其特征在于,S3具体包括以下步骤:
S3.1:构建非负矩阵三分解联合聚类模型,初始化非负矩阵三分解联合聚类模型的参数;
S3.2:将文本特征矩阵、词共现矩阵和词重要性矩阵输入非负矩阵三分解联合聚类模型,得到文档主题矩阵、单词主题矩阵和背景词主题矩阵;
S3.3:引入全局词向量表示正则项,使用乘法更新式对非负矩阵三分解联合聚类模型进行,得到文档聚类矩阵和词聚类矩阵。
5.根据权利要求4所述的基于词共现的文本非负矩阵三分解联合聚类方法,其特征在于,S3.4具体包括以下步骤:
S3.4.1:使用乘法更新式迭代更新非负矩阵三分解联合聚类模型,得到文档聚类矩阵、单词聚类矩阵和背景词聚类矩阵;
S3.4.2:将所述单词聚类矩阵和所述背景词聚类矩阵进行相加并平均操作,得到最终的词聚类矩阵。
6.根据权利要求5所述的基于词共现的文本非负矩阵三分解联合聚类方法,其特征在于,所述使用乘法更新式迭代更新非负矩阵三分解联合聚类模型的目标函数为:
其中,X为文本的文档-词表示矩阵,Z为文档聚类矩阵,W为单词聚类矩阵,为背景词聚类矩阵,S为中间矩阵,片为词重要性矩阵,C为词共现矩阵,η为全局词向量表示正则项的参数;为引入的全局词向量表示正则项,为新增的基于背景词的非负矩阵三分解矩阵。
7.根据权利要求6所述的基于词共现的文本非负矩阵三分解联合聚类方法,其特征在于,所述乘法更新式的公式表示如下:
其中,Zk-1表示迭代前的文档主题矩阵,Zk表示迭代后的文档主题矩阵;Sk_1表示迭代前的中间矩阵,Sk表示迭代后的中间矩阵;Wk_1表示迭代前的单词主题矩阵,Wk表示迭代后的单词主题矩阵;表示迭代前的背景词主题矩阵,Wk表示迭代后的单词主题矩阵。
8.根据权利要求1所述的基于词共现的文本非负矩阵三分解联合聚类方法,其特征在于,所述对文本数据集进行预处理包括分词、去停用词、去高频词、去低频词、去标点符号和去数字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111358208.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含马油、发酵马乳的乳霜及其制备方法
- 下一篇:平板式柴油机直拖水泵