[发明专利]文本分类方法和装置有效
申请号: | 201710156443.3 | 申请日: | 2017-03-16 |
公开(公告)号: | CN108628868B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 王青泽;王永亮;陈标龙;翁志 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 曹蓓 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 | ||
本发明提出一种文本分类方法和装置,涉及文本挖掘技术领域。其中,本发明的一种文本分类方法包括:将待分类文本输入词向量计算模块,获取词向量;将词向量输入神经网络,获取输出编码;通过分类模块处理输出编码,获取文本分类结果,其中,词向量计算模块和神经网络通过一体化训练生成。通过这样的方法,能够采用一体化训练而成的词向量计算模块和神经网络生成输出编码,这样的词向量计算模块和神经网络有更好的配合度,采用这样的输出编码进行分类处理能够提高文本分类的准确性。
技术领域
本发明涉及文本挖掘技术领域,特别是一种文本分类方法和装置。
背景技术
文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。通常来说,情感分析的目的是为了找出说话者或作者在某些话题上或者针对一个文本两极的观点和态度。这个态度或许是个人的判断或评估,也许是当时的情绪状态,或是想要读者所体验的情绪等。
现有的文本情感分析的途径大致可以集合成四类:关键词识别、词汇关联、统计方法和概念级技术。关键词识别是利用文本中出现的清楚定义的影响词(Affect Words),例如“开心”、“难过”、“伤心”、“害怕”、“无聊”等等,来影响分类。词汇关联除了侦查影响词以外,还附于词汇一个和某项情绪的“关联”值。统计方法通过调控机器学习中的元素,比如潜在语意分析(Latent Semantic Analysis),SVM(Support Vector Machines,支持向量机),词袋(Bag of Words),等等。一些更智能的方法意在探测出情感持有者和情感目标。要想挖掘在某语境下的意见,或是获取被给予意见的某项功能,需要使用到语法之间的关系。语法之间互相的关联性经常需要通过深度解析文本来获取。与单纯的语义技术不同的是,概念级的算法思路权衡了知识表达的元素,比如知识本体、语意网络,因此这种算法也可以探查到文字间比较微妙的情绪表达,例如,分析一些没有明确表达相关信息的概念,但是通过他们对于明确概念的不明显联系来获取所求信息。
目前,比较流行的方法是潜在语意分析、SVM以及词袋。但是,这些方法无法获得文本“完整”的上下文信息。以词袋模型为例,该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。但是,由于一个句子中每个词都是有着相互作用,互相修饰才能完整表达一句话的意思,因此现有文本分析的准确度较为有限。
发明内容
本发明的一个目的在于提高文本分析的准确性。
根据本发明的一个实施例,提出一种文本分类方法,包括:将待分类文本输入词向量计算模块,获取词向量;将词向量输入神经网络,获取输出编码;通过分类模块处理输出编码,获取文本分类结果,其中,词向量计算模块和神经网络通过一体化训练生成。
可选地,词向量计算模块和神经网络通过一体化训练生成包括:将训练文本输入待训练的词向量计算模块;待训练的词向量计算模块将生成的词向量输入待训练的神经网络;通过后验算法调整待训练的神经网络的参数,生成神经网络。
可选地,后验算法包括反向传播算法。
可选地,神经网络包括LSTM(Long Short-Term Memory,长短期记忆)模块;通过分类模块处理输出编码,获取文本分类结果包括:通过分类模块处理LSTM模块最后一个单元的输出编码,获取文本分类结果。
可选地,神经网络包括LSTM模块;文本分类方法还包括:获取LSTM模块各个单元的输出编码,确定输出编码平均值;通过分类模块处理输出编码,获取文本分类结果包括:分类模块处理输出编码平均值,获取文本分类结果。
可选地,分类模块包括Softmax回归计算模块。
可选地,待分类文本包括:用户评价文本和/或商品介绍文本。
可选地,文本分类结果包括:用户满意程度分类、服务质量分类、产品质量分类和/或产品敏感词分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710156443.3/2.html,转载请声明来源钻瓜专利网。