[发明专利]一种针对海量多词短文本的集成分类方法有效

申请号：	201811573390.6	申请日：	2018-12-21
公开（公告）号：	CN109657061B	公开（公告）日：	2020-11-27
发明（设计）人：	胡学钢;唐雪涛;朱毅;李培培	申请（专利权）人：	合肥工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种针对海量多词短文本的集成分类方法，包括：1获取多词短文本集合，并对多词短文本进行分词预处理；2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型；3基于词向量表示模型，利用Sentence2vec句向量表示方法中的PV‑DM模型，构建句向量表示；4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题，从而提高短文本表示学习的效果，提升文本分类的精度，具有较高的鲁棒性和实用性。
搜索关键词：	一种针对海量多词短文本集成分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种针对海量多词短文本的集成分类方法，其特征在于包括以下步骤：步骤1、获取多词短文本集合，并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理，得到分词结果X＝{x₁,x₂,…,x_i,…,x_M+N}，x_i表示分词后的第i条短文本，并有：表示第i条短文本x_i中第k个词，所述分词结果X是由有标记的分词集合和无标记的分词集合构成，其中，表示分词后的第m条有标记的短文本，且所述第m条有标记的短文本所对应的类别记为y_m，表示分词后的第n条无标记的短文本；m＝1,2,…,M，n＝1,2,…,N，k＝1,2,…,K，i＝1,2,…,M+N；步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V：步骤2.1、遍历所述分词结果X，并利用所述分词结果X中不同的词构造词典步骤2.2、定义窗口大小为2c，向量维度为s；步骤2.3、获取所述第i条短文本x_i中第k个词的上下文内容，记为且并将所述第i条短文本x_i中第k个词随机初始化为独热向量从而随机初始化上下文内容步骤2.4、以所述第i条短文本x_i中第k个词为目标词，并令目标词为正样本，所述词典中的其他词为负样本，并从负样本中选取部分词作为所述目标词的负样本子集步骤2.5、利用式(1)得到所述词典中任意第一个词w的标签L(w)：步骤2.6、最大化式(2)所示的目标词的目标函数式(2)中，u表示负样本子集和目标词所构成的集合中任意一个词；表示词u在上下文内容时出现的概率，并有：式(3)中，θ^u表示词u对应的辅助向量，且σ(·)表示Sigmoid函数；表示词u的标签；步骤2.7、通过随机梯度上升法对式(2)进行优化求解，得到优化后的第i条短文本x_i中第k个词的稠密向量步骤2.8、根据2.3‑步骤2.7，获得所述词典中其他词的稠密向量，从而构成词向量表示模型V；步骤3、基于所述词向量表示模型V，利用Sentence2vec句向量表示方法中的PV‑DM模型，构建句向量表示：步骤3.1、将所述第i条短文本中第k个词再次随机初始化为独热向量从而随机初始化上下文内容并初始化PV‑DM模型中的参数；步骤3.2、令ID(x_i)第i条短文本x_i的编号，d(x_i)表示第i条短文本x_i的编码向量，并利用式(4)得到第i条短文本x_i的输入向量W_i：步骤3.3、将所述第i条短文本x_i的输入向量W_i输入PV‑DM模型的输入层中，由PV‑DM模型的输出层得到第i棵二元Huffman编码树；步骤3.4、根据所述第i棵二元Huffman编码树，利用Softmax函数计算给定目标词在数据集合中出现的概率步骤3.5、利用式(5)得到优化的目标函数为：步骤3.6、根据所述词向量表示模型V，通过随机梯度上升法对式(5)进行优化求解，得到第i条短文本x_i的向量表示v(x_i)；从而得到分词结果X中每条短文本的向量表示；步骤4、利用有标记的分词集合中每条短文本的向量表示训练kNN分类器，得到训练后的分类器；并利用所述训练后的分类器对未标记的分词集合中第n条无标记的短文本与所述有标记的分词集合中每条有标记的短文本的欧氏距离进行计算，选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本的类别，从而实现对未标记的分词集合的分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811573390.6/，转载请声明来源钻瓜专利网。

上一篇：安全生产事故案例推送方法及系统
下一篇：一种基于大数据技术的电子病历文本解析闭环方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种针对海量多词短文本的集成分类方法有效

专利文献下载