[发明专利]文本分类模型构建方法以及文本数据处理方法有效

申请号：	202011335804.9	申请日：	2020-11-25
公开（公告）号：	CN112464660B	公开（公告）日：	2023-02-07
发明（设计）人：	高宇轩	申请（专利权）人：	深圳平安医疗健康科技服务有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/35;G06F16/33;G06F18/214
代理公司：	华进联合专利商标代理有限公司 44224	代理人：	杜娟娟
地址：	518048 广东省深圳市福田区华***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类模型构建方法以及数据处理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术领域，提供了一种文本分类模型构建方法以及文本数据处理方法。所述文本分类模型构建方法包括：获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据，对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合，对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系，对样本数据进行拆分，得到样本数据对应的短句集合，根据第一对应关系和短句集合进行模型训练，得到文本分类模型。采用本方法能够提高有效信息获取效率。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本分类模型构建方法以及文本数据处理方法。

背景技术

随着计算机技术的发展，出现了传统产品销售模式与“互联网+”模式相结合的新模式。

传统技术中，在线上进行产品购买时，通常需要用户通过终端阅读相关条款以及内容了解将要购买的产品，在线上进行产品销售时，通常需要工作人员通过终端阅读相关条款以及内容以便更好的推荐和解读。

然而，相关条款以及内容通常比较冗长，用户和工作人员通过阅读无法快速获取到有效的产品条款信息，存在有效信息获取效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高有效信息获取效率的文本分类模型构建方法以及文本数据处理方法。

一种文本分类模型构建方法，所述方法包括：

获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据；

对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合；

对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系；