[发明专利]文本分类模型构建方法以及文本数据处理方法有效
申请号: | 202011335804.9 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112464660B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 高宇轩 | 申请(专利权)人: | 深圳平安医疗健康科技服务有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06F16/33;G06F18/214 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 杜娟娟 |
地址: | 518048 广东省深圳市福田区华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 构建 方法 以及 数据处理 | ||
1.一种文本分类模型构建方法,所述方法包括:
获取携带产品条款词组标签的样本数据集,所述样本数据集包括多个样本数据;
对所述样本数据集中各样本数据进行分词,得到各样本数据对应的词语集合;
对所述词语集合进行新词筛选,得到各样本数据对应的新词,根据所述新词以及所述样本数据携带的产品条款词组标签,得到产品条款词组与新词之间的第一对应关系;
对所述样本数据进行拆分,得到所述样本数据对应的短句集合,将与产品条款词组对应的新词作为确定短句集合中各短句与产品条款词组之间的第二对应关系的依据,将所述短句集合作为输入,将与各所述样本数据对应的产品条款词组标签作为监督学习标签,对初始文本分类网络进行模型训练,得到文本分类模型,所述文本分类模型用于确定所述短句集合中各短句与产品条款词组之间的第二对应关系;
其中,所述初始文本分类网络中隐藏层用于对短句集合中各短句进行分词,得到与各短句对应的拆分词语集合,根据拆分词语集合构造与各短句对应的特征向量,将特征向量通过线性变换进行映射,根据映射结果输出短句集合中各短句对应于各产品条款词组的概率,选取概率最大的产品条款词组,作为与短句对应的产品条款词组。
2.根据权利要求1所述的方法,其特征在于,所述对所述词语集合进行新词筛选,得到各样本数据对应的新词包括:
遍历所述样本数据,对所述词语集合中各词语进行词频统计,得到所述样本数据中各词语的词频;
根据所述各词语的词频,计算所述样本数据中各词语之间的互信息;
根据互信息计算结果,从所述词语集合中筛选出所述样本数据对应的备选新词集合;
根据所述备选新词集合,得到所述样本数据对应的新词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述备选新词集合,得到所述样本数据对应的新词包括:
根据所述备选新词集合中各备选新词在所述样本数据中的位置,计算各备选新词的左右熵;
根据各所述备选新词的左右熵以及预设统计量得分公式,计算各备选新词的统计量得分,并计算各所述备选新词的平均互信息;
根据所述统计量得分和所述平均互信息,对各所述备选新词进行排序,得到所述样本数据对应的新词。
4.根据权利要求3所述的方法,其特征在于,所述计算各所述备选新词的平均互信息包括:
计算各所述备选新词在所述样本数据集中出现的第一概率以及分别在各所述样本数据中出现的第二概率;
获取所述样本数据集的样本数量,根据所述样本数量、所述第一概率以及所述第二概率,计算各所述备选新词的平均互信息。
5.一种文本数据处理方法,所述方法包括:
获取待处理文本数据,对所述待处理文本数据进行拆分,得到所述待处理文本数据对应的文本短句集合;
将所述文本短句集合输入已训练的文本分类模型,得到所述文本短句集合中各文本短句与产品条款词组之间的类别对应关系,所述已训练的文本分类模型根据如权利要求1-4任意一项所述的方法构建;
根据所述类别对应关系,从所述待处理文本数据中筛选出与各产品条款词组对应的有效文本短句;
根据所述有效文本短句,得到有效产品条款信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述有效文本短句,得到有效产品条款信息包括:
根据所述有效文本短句对应的条款对应关系,确定所述有效文本短句对应的目标新词;
根据所述目标新词遍历所述有效文本短句,得到有效描述信息;
根据所述有效描述信息和所述有效文本短句对应的产品条款词组,得到有效产品条款信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳平安医疗健康科技服务有限公司,未经深圳平安医疗健康科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011335804.9/1.html,转载请声明来源钻瓜专利网。