[发明专利]文本分类模型构建方法以及文本数据处理方法有效
申请号: | 202011335804.9 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112464660B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 高宇轩 | 申请(专利权)人: | 深圳平安医疗健康科技服务有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06F16/33;G06F18/214 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 杜娟娟 |
地址: | 518048 广东省深圳市福田区华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 构建 方法 以及 数据处理 | ||
本申请涉及人工智能技术领域,提供了一种文本分类模型构建方法以及文本数据处理方法。所述文本分类模型构建方法包括:获取携带产品条款词组标签的样本数据集,样本数据集包括多个样本数据,对样本数据集中各样本数据进行分词,得到各样本数据对应的词语集合,对词语集合进行新词筛选,得到各样本数据对应的新词,根据新词以及样本数据携带的产品条款词组标签,得到产品条款词组与新词之间的第一对应关系,对样本数据进行拆分,得到样本数据对应的短句集合,根据第一对应关系和短句集合进行模型训练,得到文本分类模型。采用本方法能够提高有效信息获取效率。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本分类模型构建方法以及文本数据处理方法。
背景技术
随着计算机技术的发展,出现了传统产品销售模式与“互联网+”模式相结合的新模式。
传统技术中,在线上进行产品购买时,通常需要用户通过终端阅读相关条款以及内容了解将要购买的产品,在线上进行产品销售时,通常需要工作人员通过终端阅读相关条款以及内容以便更好的推荐和解读。
然而,相关条款以及内容通常比较冗长,用户和工作人员通过阅读无法快速获取到有效的产品条款信息,存在有效信息获取效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高有效信息获取效率的文本分类模型构建方法以及文本数据处理方法。
一种文本分类模型构建方法,所述方法包括:
获取携带产品条款词组标签的样本数据集,样本数据集包括多个样本数据;
对样本数据集中各样本数据进行分词,得到各样本数据对应的词语集合;
对词语集合进行新词筛选,得到各样本数据对应的新词,根据新词以及样本数据携带的产品条款词组标签,得到产品条款词组与新词之间的第一对应关系;
对样本数据进行拆分,得到样本数据对应的短句集合,根据第一对应关系和短句集合进行模型训练,得到文本分类模型,文本分类模型用于确定短句集合中各短句与产品条款词组之间的第二对应关系。
一种文本数据处理方法,所述方法包括:
获取待处理文本数据,对待处理文本数据进行拆分,得到待处理文本数据对应的文本短句集合;
将文本短句集合输入已训练的文本分类模型,得到文本短句集合中各文本短句与产品条款词组之间的类别对应关系,已训练的文本分类模型根据上述文本分类模型构建方法构建;
根据类别对应关系,从待处理文本数据中筛选出与各产品条款词组对应的有效文本短句;
根据有效文本短句,得到有效产品条款信息。
一种文本分类模型构建装置,所述装置包括:
样本获取模块,用于获取携带产品条款词组标签的样本数据集,样本数据集包括多个样本数据;
分词模块,用于对样本数据集中各样本数据进行分词,得到各样本数据对应的词语集合;
筛选模块,用于对词语集合进行新词筛选,得到各样本数据对应的新词,根据新词以及样本数据携带的产品条款词组标签,得到产品条款词组与新词之间的第一对应关系;
训练模块,用于对样本数据进行拆分,得到样本数据对应的短句集合,根据第一对应关系和短句集合进行模型训练,得到文本分类模型,文本分类模型用于确定短句集合中各短句与产品条款词组之间的第二对应关系。
一种文本数据处理装置,所述装置包括:
文本获取模块,用于获取待处理文本数据,对待处理文本数据进行拆分,得到待处理文本数据对应的文本短句集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳平安医疗健康科技服务有限公司,未经深圳平安医疗健康科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011335804.9/2.html,转载请声明来源钻瓜专利网。