[发明专利]一种文本特征提取方法及系统有效

申请号：	201910155204.5	申请日：	2019-03-01
公开（公告）号：	CN109933790B	公开（公告）日：	2020-06-26
发明（设计）人：	张宇;郭业亮;张爽;李显锋;熊纯;张永强	申请（专利权）人：	武汉达梦数据库有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F17/15;G06F17/16
代理公司：	武汉智嘉联合知识产权代理事务所(普通合伙) 42231	代理人：	黄君军
地址：	430074 湖北省武汉市东湖新技术开***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本特征提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本特征提取方法，其特征在于，包括以下步骤：

步骤S1、获取样本数据集，根据所述样本数据集获取样本矩阵；

步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据，获取所述非平滑非负矩阵分解算法的目标函数；

步骤S3、根据所述目标函数构造近端函数，根据所述近端函数求取最优样本矩阵；

步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式，根据所述迭代公式对所述样本矩阵进行迭代更新，得到特征矩阵；

所述步骤S2具体为：

所述非平滑非负矩阵分解算法的初始目标函数为：

其中，V为归一化后的所述样本矩阵，H为文本特征表示矩阵，W为文本特征基矩阵，|| ||_F表示矩阵的F范数，θ为调节解的稀疏性的超参数，θ∈[0,1]，I表示单位矩阵，r为文本特征向量的维度数，ll表示一个全1的向量，ll^T表示向量ll的转置；

固定所述初始目标函数中文本特征基矩阵W得到所述目标函数f₁(H)；

所述步骤S3具体为：

根据所述目标函数构造所述近端函数：

其中，L为Lipschitz常数，L＝||S^TW^TWS||₂，表示矩阵的内积；

采用拉格朗日乘子法求解所述近端函数最小值对应的最优矩阵

采用拉格朗日乘子法求解所述最优矩阵具体包括：

所述拉格朗日乘子法的K.K.T条件为：

其中，表示矩阵的Kronecker积,Y为中间参数，

基于投影梯度算法计算所述最优矩阵

其中，P()表示所述投影梯度算法，P(Z)表示将矩阵Z中所有的负数投影为0；

所述步骤S4具体为：

所述迭代公式为：

其中，β₀为常数；

给定随机的迭代初始值β₀＝1，Y₀＝H₀，根据所述迭代公式进行迭代更新，当迭代次数达到设定阈值k时，迭代终止，得到H_k即为所述特征矩阵。

2.根据权利要求1所述的文本特征提取方法，其特征在于，所述步骤S1具体为：

获取多条样本数据，构造所述样本数据集；

对每一条所述样本数据进行向量表示，得到样本向量；

对各所述样本向量进行归一化处理，得到所述样本矩阵。

3.根据权利要求2所述的文本特征提取方法，其特征在于，所述向量表示具体为：

对所述样本数据进行中文分词，并过滤掉所述样本数据中的停用词，得到所述样本数据的词序列；

基于所有所述样本数据的词序列，构造所述样本数据集的字典，计算所述字典中每一个词的词频以及逆文本频率；

根据所述词频以及逆文本频率，计算所述样本数据中每一个词的TFIDF值，得到所述样本数据的向量表示。

4.根据权利要求2所述的文本特征提取方法，其特征在于，所述归一化处理具体为：

其中，x_i为所述样本向量，v_j为归一化后的样本向量，m为所述样本向量的维度数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉达梦数据库有限公司，未经武汉达梦数据库有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910155204.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载