[发明专利]基于特征编码的文本特征提取方法、系统、装置有效

申请号：	201910205999.6	申请日：	2019-03-19
公开（公告）号：	CN109977227B	公开（公告）日：	2021-06-22
发明（设计）人：	张旭;熊彦钧;何赛克;刘春阳;郑晓龙;陈志鹏;曾大军;彭鑫	申请（专利权）人：	中国科学院自动化研究所;国家计算机网络与信息安全管理中心
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/12;G06N3/00;G06N3/12
代理公司：	北京市恒有知识产权代理事务所(普通合伙) 11576	代理人：	郭文浩;尹文会
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于信息分类领域，具体涉及了一种基于特征编码的文本特征提取方法、系统、装置，旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括：对获取的文本预处理，获得词候选特征序列；基于词候选特征序列，生成多个二进制编码；采用基因遗传算法筛选二进制编码，获得最优二进制编码；解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列，并使用基因遗传算法的自动筛选功能，对特征进行最大化的全局最优挑选，能够有效地筛选出最小有效特征集。
搜索关键词：	基于特征编码文本提取方法系统装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于特征编码的文本特征提取方法，其特征在于，包括：步骤S10，获取输入文本的词候选特征序列；步骤S20，基于所述词候选特征序列，生成M个二进制编码，M为正整数；步骤S30，对所述M个二进制编码，采用基因遗传算法筛选，获得最优二进制编码；步骤S40，将所述最优二进制编码解码，获得对应的最优词特征序列作为提取的文本特征并输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国家计算机网络与信息安全管理中心，未经中国科学院自动化研究所;国家计算机网络与信息安全管理中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910205999.6/，转载请声明来源钻瓜专利网。

上一篇：基于卷积神经网络的高精度文本分类方法和系统
下一篇：电网设备缺陷文本的信息辨识方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于特征编码的文本特征提取方法、系统、装置有效

专利文献下载