[发明专利]一种基于Wide&Deep深度学习模型的文本预测方法有效
申请号: | 201911054827.X | 申请日: | 2019-10-31 |
公开(公告)号: | CN110879934B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 傅啸 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/289;G06N3/0464;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 wide deep 深度 学习 模型 文本 预测 方法 | ||
1.一种基于WideDeep深度学习模型的文本预测方法,其特征在于包括如下步骤:
步骤1:文本数据的预处理,进行对文本数据进行标注;
步骤2:人工特征提取,构建wide特征;
步骤3:构建WideDeep深度学习模型;
步骤4:对WideDeep深度学习模型进行训练;
步骤5:通过模型对文本内容进行预测;
步骤1具体实现如下:
1-1.收集文本数据集X={x1,x2,…xN},N为总的训练样本数量;其中,xi∈{x1,x2,…xN},xi表示第i个待处理的文本数据;
1-2.利用人工对文本数据进行标记,针对文本数据集中每一个文本数据xi,标记对应的yi,yi∈{0,1};标记文本数据的目的在于根据业务需要利用人工经验对文本数据进行分析,其中,1表示和业务相关,0表示不相关;
1-3.利用Jieba分词器对文本数据集X进行分词,汇总得到所有文本数据的词表W,W={w1,w2…,wD},其中D为词表的总长度;wk表示词表中第k个词;则文本数据xi表示为其中kn表示文本数据xi中第n个词在词表W中的序号,从而用词表序号重新表示文本数据xi={k1,k2…,kn};
步骤2具体实现如下:
2-1.统计文本数据集X中yi=1对应的所有文本数据xi中的词,得到出现频率最高的与业务相关的词,并排序获得序列Ⅰ;以及yi=0对应的所有文本数据xi中的词,得到出现频率最高的与业务不相关的词,并排序获得序列Ⅱ;
2-2.排除序列Ⅰ和序列Ⅱ中的语法型词汇,包括代词、冠词、连词的停用词;
2-3.将序列Ⅰ和序列Ⅱ中出现频率最高的文本特定词、j个高频词形成的组合作为wide特征,其中j范围为2-4;
所述的排序通过计算如下两个公式进行:
对和分别进行排序获得序列Ⅰ和序列Ⅱ,获取序列Ⅰ中出现频率最大的5个词以及序列Ⅱ出现频率最大的5个词
2-4.获得最终的wide特征
步骤3具体实现如下:
3-1.对文本数据的长度进行固定;
当文本数据的长度小于预设的固定长度时,使用“PAD”进行填充达到固定长度;
当文本数据的长度大于预设的固定长度时,丢弃超过预设的固定长度的部分;
如果文本数据中的词不在词表W中,使用“UNK”代替;
3-2.建立每个词的embedding向量;将词表W中的所有词转化为预设的固定长度的稠密向量;
3-3.获取一维卷积block;使用多个不同宽度的卷积核同时对embedding向量进行卷积;将每个卷积核的卷积结果进行拼接,得到一维卷积block,每次卷积后保证序列长度不变;
3-4.多次叠加一维卷积;
利用3-3定义的一维卷积block对wide特征进行处理,得到新的embedding向量,在每次卷积后使用窗口大小为4,步长为4的最大池化;每一次最大池化操作后长度缩小1/4;反复进行4次卷积和最大池化操作;获取最终序列长度变为64,特征长度为8;
3-5.文本表示;将序列长度为64,特征长度为8的向量拉直成一个序列长度为512维的向量,得到整个文本序列的512维特征向量的表示;
3-6.构建损失函数;使用全连接层将512维特征向量映射成(16+1)*2维的向量,再通过softmax函数,转化为(16+1)*2个文本数据标记yi的预测概率值,其中包括:1个文本数据标记的预测概率值,以及16个wide特征的预测概率值;损失函数表示为:
其中,yi为文本数据标记,pi为文本数据标记yi的预测概率值,fi,k为wide特征值,qi,k为wide特征的预测概率值,i为数据标记的索引,表示第i个文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911054827.X/1.html,转载请声明来源钻瓜专利网。