[发明专利]表情符号预测方法及模型构建方法、装置、终端在审
申请号: | 201810475866.6 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108733651A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 郏昕;赵立永;吴新丽;姚笛 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06F17/22;G06Q50/00 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100062 北京市大兴区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表情符号 预测 预测模型 神经网络 文本向量 文本 预处理 原始文本数据 注意力机制 模型构建 情感倾向 网络结构 应用场景 用户情绪 纯文本 词向量 细粒度 学习 验证 直观 终端 采集 测试 情绪 分析 网络 | ||
1.一种表情符号预测模型的构建方法,其特征在于,包括如下步骤:
对原始文本数据进行预处理,得到文本向量;
提取所述原始文本数据中的表情符号,对所述表情符号进行编码;
用编码后的表情符号对所述文本向量进行标注,得到样本数据;
利用所述样本数据训练深度学习模型,得到用于预测文本对应的表情符号的表情符号预测模型。
2.根据权利要求1所述的方法,其特征在于,提取所述原始文本数据中的表情符号,对所述表情符号进行编码,包括:
提取所述原始文本数据中的表情符号;
判断所述表情符号是否包含在表情库中;
若所述表情符号在所述表情库中,则对所述表情符号进行编码。
3.根据权利要求2所述的方法,其特征在于,所述表情库的构建方法包括:
对从所述原始文本数据中提取到的表情符号进行统计,得到各个表情符号的使用频率;
根据各个表情符号的使用频率,结合情绪分类规则筛选出多个表情符号,构成表情库。
4.根据权利要求1所述的方法,其特征在于,所述对原始文本数据进行预处理,得到文本向量,包括:
过滤原始文本数据中的噪音信息;
对过滤噪音信息后的原始文本数据进行分词处理;
对分词得到的分词片段进行编码,得到文本向量。
5.根据权利要求4所述的方法,其特征在于,所述对分词得到的分词片段进行编码,得到文本向量,包括:
利用预先构建的词汇库中的编码信息对分词得到的分词片段进行编码,得到文本向量;
其中,所述词汇库的构建方法包括:
过滤所述原始文本数据中的噪音信息;
对过滤噪音信息后的原始文本数据进行分词处理;
对分词处理后得到的分词片段进行词频统计;
根据词频统计结果筛选出分词片段构成词汇库;
对所述词汇库中的各个分词片段进行编码,将编码信息关联存入所述词汇库。
6.根据权利要求1所述的方法,其特征在于,所述用编码后的表情符号对所述文本向量进行标注,得到样本数据,包括:
若从同一原始文本数据中仅提取到一个表情符号,则用编码后的表情符号对所述文本向量进行标注,得到一个样本数据;
若从同一原始文本数据中提取到多个表情符号,则用编码后的各个表情符号分别对所述文本向量进行标注,得到多个样本数据。
7.根据权利要求1所述的方法,其特征在于,所述利用所述样本数据训练深度学习模型,得到用于预测文本对应的表情符号的表情符号预测模型,包括:
将所述样本数据划分为训练集、验证集和测试集;
利用所述训练集训初始练深度学习模型,以优化所述初始深度学习模型的参数;
当所述初始深度学习模型满足训练停止条件时,更换所述初始深度学习模型的超参数,继续利用所述训练集训练所述初始深度学习模型,直到遍历完所有超参数的组合为止;
利用所述验证集对各组超参数对应的初始深度学习模型进行验证,选择一组最优的超参数作为所述初始深度学习模型的超参数,得到深度学习模型;
利用所述训练集训练所述深度学习模型,以优化所述深度学习模型的参数;
利用所述测试集评估优化后的所述深度学习模型的性能,将通过性能评估的深度学习模型作为表情符号预测模型。
8.根据权利要求7所述的方法,其特征在于,所述利用所述训练集训初始练深度学习模型,以优化所述初始深度学习模型的参数,包括:
从所述训练集中实时采集样本数据得到子训练集,对所述子训练集进行欠采样平衡,并存入缓存;
在采集样本数据的同时,从缓存中读取已完成欠采样平衡的子训练集,利用所述子训练集训练初始深度学习模型,以优化所述初始深度学习模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810475866.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:个性化词获取方法及装置
- 下一篇:基于机器学习的影评情感倾向性分析的测试方法