[发明专利]一种文本特征提取方法及系统有效
申请号: | 201910155204.5 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109933790B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 张宇;郭业亮;张爽;李显锋;熊纯;张永强 | 申请(专利权)人: | 武汉达梦数据库有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F17/15;G06F17/16 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 黄君军 |
地址: | 430074 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 特征 提取 方法 系统 | ||
本发明公开一种文本特征提取方法,包括以下步骤:步骤S1、获取样本数据集,根据所述样本数据集获取样本矩阵;步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;步骤S3、根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。本发明在进行文本特征提取时,收敛速度快,提取效率高。
技术领域
本发明涉及文本处理技术领域,具体涉及一种文本特征提取方法及系统。
背景技术
在公安部门的案件侦破过程中,办案人员会记录一些重要的与案件相关的信息,比如:作案类别、作案区域、作案时间、作案地点和作案手法等。这些重要的案件特征一部分是结构化的,后续处理的难度不大,但是像作案时间、作案地点和作案手法这些案件特征被记录在非结构化的案情描述文本中时,如果要从非结构化的案情描述中提取特定类型的案件特征,则依赖于人工干预,比如人工提取特定类型的案件特征,或者人工标注大量的训练语料。这种方式存在人力成本大、效率低的问题。
非负矩阵分解,即NMF,由于其非负的约束使得其获得解具有很好的可解释性,因此已经成为机器学习和信号处理领域的研究热点。此外,它在学习数据有效的特征表示问题上表现出了巨大的潜力。因此,现有技术中,有通过非负矩阵分解实现非结构化文本的特征提取,但是传统的非负矩阵分解采用乘性迭代的方式获得最优解存在收敛速度慢的问题。
发明内容
本发明的目的在于克服上述技术不足,提供一种文本特征提取方法及系统,解决现有技术中非结构文本的特征提取依赖人力以及提取文本特征收敛速度慢的技术问题。
为达到上述技术目的,本发明的技术方案提供一种文本特征提取方法,包括以下步骤:
步骤S1、获取样本数据集,根据所述样本数据集获取样本矩阵;
步骤S2、以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;
步骤S3、根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;
步骤S4、根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。
本发明还提供一种文本特征提取系统,包括样本模块、目标函数模块、最优样本模块以及迭代模块;
所述样本模块用于获取样本数据集,根据所述样本数据集获取样本矩阵;
所述目标函数模块用于以所述样本矩阵作为非平滑非负矩阵分解算法的输入数据,获取所述非平滑非负矩阵分解算法的目标函数;
所述最优样本模块用于根据所述目标函数构造近端函数,根据所述近端函数求取最优样本矩阵;
所述迭代模块用于根据所述最优样本矩阵构建样本矩阵的迭代公式,根据所述迭代公式对所述样本矩阵进行迭代更新,得到特征矩阵。
本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述文本特征提取方法。
与现有技术相比,本发明的有益效果包括:本发明基于Nesterov理论,创新性的提出了一种非平滑非负矩阵的快速分解方法,并利用该分解方法自动的学习文本数据的特征,通过该方法济进行文本特征的提取能够有效地节约人力成本,加速算法收敛速度。
附图说明
图1是本发明提供的文本特征提取方法的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉达梦数据库有限公司,未经武汉达梦数据库有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910155204.5/2.html,转载请声明来源钻瓜专利网。