[发明专利]文本分类模型构建、文本分类方法及装置在审
申请号: | 202110322136.4 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112948586A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 谢先招;向修海 | 申请(专利权)人: | 武汉优品楚鼎科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/30;G06N20/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 盛明星 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 构建 方法 装置 | ||
1.一种文本分类模型构建方法,其特征在于,包括如下步骤:
构建情感词典;
基于所述情感词典对预先标注文本数据进行数据清洗,得到中性文本数据集与非中性文本数据集;其中,所述非中性文本数据集包括利好文本数据集及利空文本数据集,且所述中性文本数据集中的文本数据具有预设第一特征,所述利好文本数据集中的文本数据具有预设第二特征,所述利空文本数据集中的文本数据具有预设第三特征;
基于所述中性文本数据集与所述非中性文本数据集对第一文本分类模型进行训练,得到中性/非中性二分类器;基于所述利好文本数据集及所述利空文本数据集对第二文本分类模型进行训练,得到利好/利空二分类器;
所述基于所述情感词典对预先标注文本数据进行数据清洗,得到中性文本数据集与非中性文本数据集,具体包括:若所述预先标注文本数据包含正面情感词或负面情感词,则标记所述预先标注文本数据为非中性文本数据;否则,标记所述预先标注文本数据为中性文本数据;
若所述预先标注文本数据以问号为结尾,且所述预先标注文本数据无其他分句,则标记所述预先标注文本数据为中性文本数据;
若所述预先标注文本数据包含两个分句,且其中一个分句包含一个所述正面情感词,另一个分句包含一个所述负面情感词,则标记所述预先标注文本数据为中性文本数据;
若所述预先标注文本数据包含预设奇异词,则标记所述预先标注文本数据为非中性文本数据;
若所述预先标注文本数据包含所述正面情感词或所述负面情感词,且所述正面情感词和所述负面情感词的个数不同,则标记所述预先标注文本数据为非中性文本数据;
根据所述中性文本数据构建得到所述中性文本数据集,根据所述非中性文本数据构建得到所述非中性文本数据集。
2.根据权利要求1所述的文本分类模型构建方法,其特征在于,所述构建情感词典,具体包括:对人工标注非中性文本数据进行分词处理,获取词性为动词的关键词,基于所述关键词形成关键词集合,基于所述关键词集合获取正面情感词和负面情感词,基于所述正面情感词和所述负面情感词构建所述情感词典;其中,所述正面情感词具备预设第四特征,所述负面情感词具备预设第五特征。
3.根据权利要求2所述的文本分类模型构建方法,其特征在于,所述基于所述关键词形成关键词集合,具体包括:对所述关键词的词频进行统计,基于所述关键词的词频筛选所述关键词集合中的关键词,基于筛选后的所述关键词构建所述关键词集合。
4.根据权利要求1所述的文本分类模型构建方法,其特征在于,所述基于所述中性文本数据集与所述非中性文本数据集对第一文本分类模型进行训练,得到中性/非中性二分类器,具体包括:设置epoch参数为20,基于所述中性文本数据集与所述非中性文本数据集对所述第一文本分类模型进行训练,得到所述中性/非中性二分类器;
和/或,
所述基于所述利好文本数据集及所述利空文本数据集对第二文本分类模型进行训练,得到利好/利空二分类器,具体包括:设置epoch参数为50,基于所述利好文本数据集及所述利空文本数据集对所述第二文本分类模型进行训练,得到所述利好/利空二分类器。
5.一种文本分类方法,其特征在于,包括:
基于预设的文本情感极性判断规则对待测文本数据进行判断,得到所述待测文本数据为中性或非中性的第一判断结果;对于所述第一判断结果为中性的所述待测文本数据,输出所述第一判断结果;
基于中性/非中性二分类器对所述第一判断结果为所述非中性的所述待测文本数据进一步进行判断,得到所述待测文本数据为中性或非中性的第二判断结果;对于所述第二判断结果为中性的所述待测文本数据,输出所述第二判断结果;
基于利好/利空二分类器对所述第二判断结果为所述非中性的所述待测文本数据进一步进行判断,得到所述待测文本数据为利好或利空的第三判断结果,并分别输出所述第三判断结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉优品楚鼎科技有限公司,未经武汉优品楚鼎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322136.4/1.html,转载请声明来源钻瓜专利网。