[发明专利]一种多文本分类方法和装置在审
申请号: | 201910192853.2 | 申请日: | 2019-03-14 |
公开(公告)号: | CN111694949A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 汪冬冬;程建波;彭南博;黄志翔 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 100176 北京市经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 | ||
本发明提供了一种多文本分类方法和装置,该方法包括:获取具有相关性的多个文本,以及每个文本的条件特征和时间特征;基于多个文本中每个文本的条件特征,利用循环神经网络和注意力机制提取该文本的文本特征;基于多个文本中每个文本的时间特征和文本特征,利用循环神经网络提取多个文本的特征;根据多个文本的特征,使用预先设定的分类模型确定多个文本的分类。本发明能够根据多文本之间的相关性实现对多文本的分类。
技术领域
本发明涉及信息处理技术领域,特别涉及一种多文本分类方法和装置。
背景技术
近年来,随着评论、留言、自媒体文章等文本数据迅速增长,文本分类作为自然语言处理中重要任务,得到了快速的发展。根据使用方法可以分为如下两类:
1)基于传统机器学习方法。基于传统机器学习方法的文本分类忽略了文本的语意特征,对于较长或语意更为复杂的文本有很大局限性。
2)是基于词向量结合深度学习的提取文本特征并分类。基于词向量和深度学习技术的文本分类能获得较好的效果,但只是将文本作为数据进行分类而忽略了文本的语境信息。例如在用户评论场景中,评论表达的信息是正面还是负面,与商品的价格和用户给出的评价星级等条件有强相关性。
上述文本分类技术都针对单个文本进行分类,然而在一些重要的应用场景中,某些文本之间存在强关系,需要对某些系列文本进行分类。例如电商网站的用户评论,同一个用户的评论风格有强相关性,将同一个用户的评论作为一个系列文本进行分类非常有必要,可以用于判断用户的偏好等属性。又如,论坛留言、内容推荐网站中的针对某个作品的所有评价文本也具有强相关性,可以作为一个系列文本进行分类。
发明内容
有鉴于此,本发明的目的在于提供一种多文本分类方法和装置,能够根据多文本之间的相关性实现对多文本的分类。
为了达到上述目的,本发明提供了如下技术方案:
一种多文本分类方法,包括:
获取具有相关性的多个文本,以及每个文本的条件特征和时间特征;
基于多个文本中每个文本的条件特征,利用循环神经网络和注意力机制提取该文本的文本特征;
基于多个文本中每个文本的时间特征和文本特征,利用循环神经网络提取多个文本的特征;
根据多个文本的特征,使用预先设定的分类模型确定多个文本的分类。
一种多文本分类装置,包括:
获取单元,用于获取具有相关性的多个文本,以及每个文本的条件特征和时间特征;
第一特征提取单元,用于基于多个文本中每个文本的条件特征,利用循环神经网络和注意力机制提取该文本的文本特征;
第二特征提取单元,用于基于多个文本中每个文本的时间特征和文本特征,利用循环神经网络提取多个文本的特征;
分类单元,用于根据多个文本的特征,使用预先设定的分类模型确定多个文本的分类。
一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通过总线相连的存储器;所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序;所述至少一个处理器执行所述一个或多个计算机程序时实现上述多文本分类方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个计算机程序,所述一个或多个计算机程序被处理器执行时实现上述多文本分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910192853.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:扩展型调色发光照明方法及存储介质
- 下一篇:防静电光罩