[发明专利]文本分类方法及装置有效

申请号：	201910523985.9	申请日：	2019-06-17
公开（公告）号：	CN110232127B	公开（公告）日：	2021-11-16
发明（设计）人：	杨开平;谌立;熊永福;冯岭子;龚伟	申请（专利权）人：	重庆紫光华山智安科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06F40/30;G06F40/289;G06F40/247;G06N3/04;G06N3/08
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	宋朋飞
地址：	400700 重庆市***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分类方法，其特征在于，包括：

获取待分类文本，其中，所述待分类文本包括：词语信息和序列信息，多个所述词语信息构成所述序列信息；

根据所述待分类文本的所述词语信息以及预设模型，获取所述待分类文本的词向量，根据所述词向量及预设算法，获取所述待分类文本的文本向量；

采用双向长短记忆网络LSTM模型训练所述序列信息，预测所述词语信息与所述序列信息的关联关系，其中，所述序列信息为由多个词语信息预组成语句之前的状态；

所述双向LSTM模型包括：前向LSTM模型和后向LSTM模型，所述关联关系，通过记忆有所述序列信息的向量进行表示，所述向量是通过对所述前向LSTM模型和所述后向LSTM模型分别输出的向量进行计算所得到的向量平均值；整合所述文本向量与所述序列信息的关联关系，并将整合后的所述文本向量与所述序列信息的关联关系输入至预设分类模型中，得到所述文本的类别，其中，所述整合后的所述文本向量与所述序列信息的关联关系是指当前待分类文本的多个扩展文本；

所述采用双向长短记忆网络LSTM模型训练所述序列信息，预测所述词语信息与所述序列信息的关联关系之前，还包括：

若所述序列信息中的词语信息数量小于预设长度，则补充默认数值，得到补充后的序列信息，所述补充后的序列信息的词语信息数量为所述预设长度；

采用双向LSTM模型训练所述补充后的序列信息，得到所述词语信息与所述补充后的序列信息的关联关系；

所述采用双向长短记忆网络LSTM模型训练所述序列信息，预测所述词语信息与所述序列信息的关联关系，包括：

若所述序列信息中的词语信息数量大于预设长度，则删除部分词语信息，得到删除后的序列信息，所述删除后的序列信息的词语信息数量为所述预设长度；

采用双向LSTM模型训练所述删除后的序列信息，得到所述词语信息与所述删除后的序列信息的关联关系。

2.如权利要求1所述的文本分类方法，其特征在于，所述采用双向长短记忆网络LSTM模型训练所述序列信息，得到所述词语信息与所述序列信息的关联关系，包括：

采用前向LSTM模型训练所述序列信息，获取所述词语信息与所述序列信息的关联关系为其中，用n表示待分类文本中包含n个词语信息的词组为(t₁，t₂，...，t_n-1，t_n)，p(t_k|t₁,t₂,...t_k-1,t_k)表示已知序列(t₁，t₂，...，t_k-1，t_k)的情况下，出现t_k的概率；