[发明专利]文本分类模型构建方法以及文本数据处理方法有效

申请号：	202011335804.9	申请日：	2020-11-25
公开（公告）号：	CN112464660B	公开（公告）日：	2023-02-07
发明（设计）人：	高宇轩	申请（专利权）人：	深圳平安医疗健康科技服务有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/35;G06F16/33;G06F18/214
代理公司：	华进联合专利商标代理有限公司 44224	代理人：	杜娟娟
地址：	518048 广东省深圳市福田区华***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类模型构建方法以及数据处理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分类模型构建方法，所述方法包括：

获取携带产品条款词组标签的样本数据集，所述样本数据集包括多个样本数据；

对所述样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合；

对所述词语集合进行新词筛选，得到各样本数据对应的新词，根据所述新词以及所述样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系；

对所述样本数据进行拆分，得到所述样本数据对应的短句集合，将与产品条款词组对应的新词作为确定短句集合中各短句与产品条款词组之间的第二对应关系的依据，将所述短句集合作为输入，将与各所述样本数据对应的产品条款词组标签作为监督学习标签，对初始文本分类网络进行模型训练，得到文本分类模型，所述文本分类模型用于确定所述短句集合中各短句与产品条款词组之间的第二对应关系；

其中，所述初始文本分类网络中隐藏层用于对短句集合中各短句进行分词，得到与各短句对应的拆分词语集合，根据拆分词语集合构造与各短句对应的特征向量，将特征向量通过线性变换进行映射，根据映射结果输出短句集合中各短句对应于各产品条款词组的概率，选取概率最大的产品条款词组，作为与短句对应的产品条款词组。

2.根据权利要求1所述的方法，其特征在于，所述对所述词语集合进行新词筛选，得到各样本数据对应的新词包括：

遍历所述样本数据，对所述词语集合中各词语进行词频统计，得到所述样本数据中各词语的词频；

根据所述各词语的词频，计算所述样本数据中各词语之间的互信息；

根据互信息计算结果，从所述词语集合中筛选出所述样本数据对应的备选新词集合；

根据所述备选新词集合，得到所述样本数据对应的新词。

3.根据权利要求2所述的方法，其特征在于，所述根据所述备选新词集合，得到所述样本数据对应的新词包括：

根据所述备选新词集合中各备选新词在所述样本数据中的位置，计算各备选新词的左右熵；

根据各所述备选新词的左右熵以及预设统计量得分公式，计算各备选新词的统计量得分，并计算各所述备选新词的平均互信息；

根据所述统计量得分和所述平均互信息，对各所述备选新词进行排序，得到所述样本数据对应的新词。

4.根据权利要求3所述的方法，其特征在于，所述计算各所述备选新词的平均互信息包括：

计算各所述备选新词在所述样本数据集中出现的第一概率以及分别在各所述样本数据中出现的第二概率；