[发明专利]文本表示方法、装置和文本分类方法在审
申请号: | 202010527164.5 | 申请日: | 2020-06-10 |
公开(公告)号: | CN111797229A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 王义真;吴明勇;杜向阳 | 申请(专利权)人: | 南京擎盾信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 卜荣丽 |
地址: | 210000 江苏省南京市雨花台*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 表示 方法 装置 分类 | ||
本申请公开了一种文本表示方法。该文本表示方法包括获取待识别文本;将待识别文本输入至少一个自然语言处理模型,得到文本特征;将待识别文本输入特征提取模型,得到非文本特征;基于文本特征和非文本特征得到文本表示结果。本申请还提出了一种文本分类方法、一种文本表示装置、一种计算机可读存储介质以及一种电子设备。本申请解决了之前文本表示过程中深度学习和特征工程无法很好进行融合的技术问题。
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种文本表示方法。
背景技术
近年来,随着深度学习的蓬勃发展,深度学习在自然语言处理领域取得了很大成果,特别是2018年由谷歌提出的BERT(Bidirectional Encoder Representations fromTransformers,即基于Transformers的双向编码表示模型),作为一个Word2Vec(是用来产生词向量的相关模型,这些模型为浅层双层的神经网络)的替代者,其在NLP(NaturalLanguage Processing,即自然语言处理)领域的11个方向大幅刷新了精度。
文本分类是自然语言处理中研究最为广泛的任务之一,通过构建模型实现对文本内容进行自动分类,有很多应用场景,比如新闻文章主题分类,产品评论情感分类,检索中用户查询的意图分类等等。针对文本表示过程中深度学习和特征工程无法很好进行融合的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本表示方法,以解决深度学习和特征工程无法很好进行融合的技术问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本表示方法、装置和文本分类方法。
第一方面,本申请提供了一种文本表示方法。
根据本申请的文本表示方法包括:
获取待识别文本;
将待识别文本输入至少一个自然语言处理模型,得到文本特征;
将待识别文本输入特征提取模型,得到非文本特征;
基于文本特征和非文本特征得到文本表示结果。
进一步的,文本特征为识别文本的原始文本的原始文本向量和/或待识别文本压缩后的主要信息文本的压缩文本向量。
进一步的,待识别文本输入至少一个自然语言处理模型,得到文本特征包括:将待识别文本的原始文本输入第一自然语言处理模型,得到原始文本向量。
进一步的,将待识别文本输入至少一个自然语言处理模型,得到文本特征包括:将待识别文本压缩后的主要信息文本输入第二自然语言处理模型进行处理,得到压缩文本向量。
进一步的,将待识别文本输入特征提取模型,得到非文本特征包括:将待识别文本的特征信息输入特征提取模型,得到非文本特征向量。
第二方面,本申请提供了一种文本分类方法,该方法包括:
获取待分类文本;
基于文本表示方法提取待分类文本的特征;
将特征输入分类模型中,得到分类结果。
第三方面,本申请提供了一种文本表示装置,该装置包括:
文本获取模块:用于获取待识别文本;
文本处理模块:用于将待识别文本输入至少一个自然语言处理模型,得到文本特征;
非文本处理模块:用于将待识别文本输入特征提取模型,得到非文本特征;
结果表示模块:用于基于文本特征和非文本特征得到文本表示结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京擎盾信息科技有限公司,未经南京擎盾信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010527164.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种道路施工用碎石铺路装置
- 下一篇:一种烘焙用模块化产品输送机