[发明专利]一种基于机器学习的文本处理方法在审
申请号: | 201910427806.1 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110162634A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 王树大;张兆明;安丽娜 | 申请(专利权)人: | 北京鸿联九五信息产业有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/335 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本模板 缓存队列 文本处理 文本 匹配 基于机器 匹配成功 文本分类 数据库 模型输入数据 文本分类模型 计算设备 文本匹配 文本提取 哈希表 移入 删除 输出 学习 | ||
本发明公开了一种基于机器学习的文本处理方法,适于在计算设备中执行,包括:对获取的文本提取文本签名;从数据库中获取该文本签名下已提取的文本模板;将文本与文本模板进行匹配,如果匹配成功则输出与文本匹配的文本模板编号;将文本模板编号移入数据库的缓存队列的头部;如果未匹配成功,则将未匹配的文本处理为模型输入数据,以便输入训练后的文本分类模型得到文本分类结果;以及判断缓存队列是否已满,如果已满则删除预定时间内使用次数最少的文本模板编号,将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于机器学习的文本处理方法、计算设备及存储介质。
背景技术
随着大数据时代的到来,以及机器学习的广泛应用,为自然语言的处理带来了新的突破。在自然语言处理的过程中,由于文本格式不一,需要对文本进行预处理。机器学习就是把原始数据变成机器可以理解的数据,然后再用各种算法进行操作。
文本分类任务包括离线批量的文本分类,即业务人员通过界面上传或从数据库中导入的方式建立文本分类任务,由后台程序对文本作分类标记;以及实时的文本分类,即对输入的新的文本进行快速的分析判断。在进行文本分类时,会涉及对文本进行预处理,包括文档切分、文本分词、去停用词、文本特征提取、词频统计、文本向量化等。
为了提高文本分类的效率,需要一种文本处理方法,能够对文本实时输出分类结果。
发明内容
为此,本发明提供了一种基于机器学习的文本处理方法,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种基于机器学习的文本处理方法,该方法适于在计算设备中执行。该方法包括:首先,对获取的文本提取文本签名。然后,从数据库中获取该文本签名下已提取的文本模板。随后,将文本与文本模板进行匹配,如果匹配成功则输出与所述文本匹配的文本模板编号,并将文本模板编号移入数据库的缓存队列的头部。如果未匹配成功,则将未匹配的文本处理为模型输入数据,以便输入训练后的文本分类模型得到文本分类结果。判断缓存队列是否已满,如果已满则删除预定时间内使用次数最少的文本模板编号,将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。
可选地,在上述方法中,基于预设的正则表达式提取所获取文本的签名。
可选地,在上述方法中,获取预设的过滤词正则表达式列表;将文本与过滤词正则表达式列表中的各项进行匹配,如果匹配成功则输出过滤词标识,以便将文本过滤。
可选地,在上述方法中,对文本和文本模板进行分词处理,得到文本词序列和文本模板词序列;计算文本词序列与文本模板词序列之间的编辑距离,如果编辑距离小于预定距离则匹配成功,否则匹配失败。
可选地,在上述方法中,如果文本模板编号存在于缓存队列中,则将缓存队列中的该文本模板编号移入头部;否则判断缓存队列是否已满,如果已满则将最近最少使用的文本模板编号删除,将文本模板编号插入缓存队列的头部。
可选地,在上述方法中,基于已构建的特征词典对未匹配的文本进行过滤,得到特征词序列;对特征词序列进行编码,得到预定格式的特征向量;将特征向量保存为文本文件或者特征矩阵,输入文本分类模型中进行预测,得到文本分类结果。
可选地,在上述方法中,特征向量由标签值、特征编号和特征值构成,所述特征编号对应该特征词在特征词典中的下标,所述特征值为该特征词在未匹配的文本中出现的次数。
可选地,在上述方法中,文本分类模型为多分类的决策树模型。
可选地,在上述方法中,数据库为redis数据库,缓存队列为双向队列,预先存储预定数量的文本模板编号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京鸿联九五信息产业有限公司,未经北京鸿联九五信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910427806.1/2.html,转载请声明来源钻瓜专利网。