[发明专利]一种文本特征提取方法及系统有效

申请号：	201910155204.5	申请日：	2019-03-01
公开（公告）号：	CN109933790B	公开（公告）日：	2020-06-26
发明（设计）人：	张宇;郭业亮;张爽;李显锋;熊纯;张永强	申请（专利权）人：	武汉达梦数据库有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F17/15;G06F17/16
代理公司：	武汉智嘉联合知识产权代理事务所(普通合伙) 42231	代理人：	黄君军
地址：	430074 湖北省武汉市东湖新技术开***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本特征提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种文本特征提取方法，包括以下步骤：步骤S1、获取样本数据集，根据所述样本数据集获取样本矩阵；步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据，获取所述非平滑非负矩阵分解算法的目标函数；步骤S3、根据所述目标函数构造近端函数，根据所述近端函数求取最优样本矩阵；步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式，根据所述迭代公式对所述样本矩阵进行迭代更新，得到特征矩阵。本发明在进行文本特征提取时，收敛速度快，提取效率高。

技术领域

本发明涉及文本处理技术领域，具体涉及一种文本特征提取方法及系统。

背景技术

在公安部门的案件侦破过程中，办案人员会记录一些重要的与案件相关的信息，比如：作案类别、作案区域、作案时间、作案地点和作案手法等。这些重要的案件特征一部分是结构化的，后续处理的难度不大，但是像作案时间、作案地点和作案手法这些案件特征被记录在非结构化的案情描述文本中时，如果要从非结构化的案情描述中提取特定类型的案件特征，则依赖于人工干预，比如人工提取特定类型的案件特征，或者人工标注大量的训练语料。这种方式存在人力成本大、效率低的问题。

非负矩阵分解，即NMF，由于其非负的约束使得其获得解具有很好的可解释性，因此已经成为机器学习和信号处理领域的研究热点。此外，它在学习数据有效的特征表示问题上表现出了巨大的潜力。因此，现有技术中，有通过非负矩阵分解实现非结构化文本的特征提取，但是传统的非负矩阵分解采用乘性迭代的方式获得最优解存在收敛速度慢的问题。

发明内容

本发明的目的在于克服上述技术不足，提供一种文本特征提取方法及系统，解决现有技术中非结构文本的特征提取依赖人力以及提取文本特征收敛速度慢的技术问题。

为达到上述技术目的，本发明的技术方案提供一种文本特征提取方法，包括以下步骤：

步骤S1、获取样本数据集，根据所述样本数据集获取样本矩阵；

步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据，获取所述非平滑非负矩阵分解算法的目标函数；

步骤S3、根据所述目标函数构造近端函数，根据所述近端函数求取最优样本矩阵；

步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式，根据所述迭代公式对所述样本矩阵进行迭代更新，得到特征矩阵。

本发明还提供一种文本特征提取系统，包括样本模块、目标函数模块、最优样本模块以及迭代模块；

所述样本模块用于获取样本数据集，根据所述样本数据集获取样本矩阵；

所述目标函数模块用于以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据，获取所述非平滑非负矩阵分解算法的目标函数；

所述最优样本模块用于根据所述目标函数构造近端函数，根据所述近端函数求取最优样本矩阵；

所述迭代模块用于根据所述最优样本矩阵构建样本矩阵的迭代公式，根据所述迭代公式对所述样本矩阵进行迭代更新，得到特征矩阵。