[发明专利]文本表示方法、装置和文本分类方法在审

申请号：	202010527164.5	申请日：	2020-06-10
公开（公告）号：	CN111797229A	公开（公告）日：	2020-10-20
发明（设计）人：	王义真;吴明勇;杜向阳	申请（专利权）人：	南京擎盾信息科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06N3/08
代理公司：	北京卓唐知识产权代理有限公司 11541	代理人：	卜荣丽
地址：	210000 江苏省南京市雨花台***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本表示方法装置分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本表示方法。该文本表示方法包括获取待识别文本；将待识别文本输入至少一个自然语言处理模型，得到文本特征；将待识别文本输入特征提取模型，得到非文本特征；基于文本特征和非文本特征得到文本表示结果。本申请还提出了一种文本分类方法、一种文本表示装置、一种计算机可读存储介质以及一种电子设备。本申请解决了之前文本表示过程中深度学习和特征工程无法很好进行融合的技术问题。

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种文本表示方法。

背景技术

近年来，随着深度学习的蓬勃发展，深度学习在自然语言处理领域取得了很大成果，特别是2018年由谷歌提出的BERT(Bidirectional Encoder Representations fromTransformers，即基于Transformers的双向编码表示模型)，作为一个Word2Vec(是用来产生词向量的相关模型，这些模型为浅层双层的神经网络)的替代者，其在NLP(NaturalLanguage Processing，即自然语言处理)领域的11个方向大幅刷新了精度。

文本分类是自然语言处理中研究最为广泛的任务之一，通过构建模型实现对文本内容进行自动分类，有很多应用场景，比如新闻文章主题分类，产品评论情感分类，检索中用户查询的意图分类等等。针对文本表示过程中深度学习和特征工程无法很好进行融合的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文本表示方法，以解决深度学习和特征工程无法很好进行融合的技术问题。

为了实现上述目的，根据本申请的一个方面，提供了一种文本表示方法、装置和文本分类方法。

第一方面，本申请提供了一种文本表示方法。

根据本申请的文本表示方法包括：

获取待识别文本；

将待识别文本输入至少一个自然语言处理模型，得到文本特征；

将待识别文本输入特征提取模型，得到非文本特征；

基于文本特征和非文本特征得到文本表示结果。

进一步的，文本特征为识别文本的原始文本的原始文本向量和/或待识别文本压缩后的主要信息文本的压缩文本向量。

进一步的，待识别文本输入至少一个自然语言处理模型，得到文本特征包括：将待识别文本的原始文本输入第一自然语言处理模型，得到原始文本向量。