[发明专利]旅游评论短文本分类方法、装置、电子设备及存储介质在审

专利信息
申请号: 202111675055.9 申请日: 2021-12-31
公开(公告)号: CN114328932A 公开(公告)日: 2022-04-12
发明(设计)人: 冼广铭;梅灏洋;余嘉琳;张鑫;王鲁栋 申请(专利权)人: 华南师范大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/126;G06F40/30;G06N3/04;G06N3/08
代理公司: 广州骏思知识产权代理有限公司 44425 代理人: 张金龙
地址: 528225 广东省佛山市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 旅游 评论 文本 分类 方法 装置 电子设备 存储 介质
【说明书】:

发明涉及一种旅游评论短文本分类方法、装置、电子设备及存储介质。本发明所述的一种旅游评论短文本分类方法包括:获取待分类的文本,并对所述待分类的文本进行预处理,得到数字化的文本数据;采用BERT模型对所述文本数据进行编码,得到编码向量;采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量;将所述编码向量和所述主题向量进行融合,得到融合向量;提取所述融合向量的深层特征,得到上下文语义关系编码序列;对所述上下文语义关系编码序列进行归一化处理,得到所述文本的所属类别。本发明所述的一种旅游评论短文本分类方法,使用的分类模型结合BTM主题模型和BERT模型,并进行捕捉文本上下文信息特征,提高了文本分类的精度。

技术领域

本发明涉及文本分类领域,特别是涉及一种旅游评论短文本分类方法、装置、电子设备及存储介质。

背景技术

随着移动互联网和生活质量的提升,人们对旅游的热情日益攀升,各大旅游服务网站也应运而生,其中大量的旅游评论都以短文本的形式记录,这些数据可能涵盖了用户的真实需求、行为、偏好等信息。旅游网站评论一般由几个到几十个词组成,具有长度短、特征稀疏、多歧义等短文本特点。

如若使用传统的文本分类方法手工提取特征,获得的特征较为稀疏;如若采用机器学习方法,如SVM、朴素贝叶斯、逻辑回归等,则分类的精度有限,不能满足要求。

目前基于主题模型的文本分类如LDA(隐含狄利克雷分布)在处理短文本时,由于文本短,包含很少的文本特征,单条句子级别的短文本形不成话题,用LDA很难建模。而且增加文本数量不能克服这种短文本带来的缺陷。

现有技术常用的词编码模型如word2Vec,word2Vec由词义的分布式假设(一个单词的意思由频繁出现在它上下文的词给出)出发,最终得到的是一个look-up table,每一个单词被映射到一个唯一的稠密向量。它无法处理一词多义问题,但自然语言中每个词都可能多个不同的含义,只用固定的某一个向量,并不能很好的解决这个问题。另外,word2Vec产生的词表示是静态的,不考虑上下文的,而解决一词多义问题必然离不开上下文。word2Vec的网络模型过于简单,导致不能很好的体现词的复杂性,也没有很好的考虑到语法、语义等问题,也没有把单词的位置信息一起编码,因此产生的词向量不能很好的提取到上下文的依赖关系,也不能提取到更多深层的关系。

发明内容

基于此,本发明的目的在于,提供一种旅游评论短文本分类方法、装置、电子设备及存储介质,使用Topic BERT(结合BTM主题模型和BERT模型)进行中文文本的特征表示,并在此基础上进行捕捉文本上下文信息特征的文本分类模型以此来提高文本分类的精度。

第一方面,本发明提供一种旅游评论短文本分类方法,包括以下步骤:

获取待分类的文本,并对所述待分类的文本进行预处理,得到数字化的文本数据;

采用BERT模型对所述文本数据进行编码,得到编码向量;

采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量;

将所述编码向量和所述主题向量进行融合,得到融合向量;

提取所述融合向量的深层特征,得到上下文语义关系编码序列;

对所述上下文语义关系编码序列进行归一化处理,得到所述文本的所属类别。

进一步地,采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量,包括:

将所述文本数据S输入BTM模型;

将文本数据S转化为Biterm,得到B=(B1,B2,...,Bm),其中Bi表示文本数据经过BTM模型分解的每一个Biterm;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111675055.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top