[发明专利]一种游戏平台用户问答业务的短文本分类方法有效
申请号: | 201911282726.8 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111104513B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 陶涛;刘冶;桂进军;陈宇恒;潘炎;印鉴 | 申请(专利权)人: | 中山大学;广州赫炎大数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F18/2415;G06N3/0464;G06N3/08 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 游戏 平台 用户 问答 业务 文本 分类 方法 | ||
1.一种游戏平台用户问答业务的短文本分类方法,其特征在于,包括以下步骤:
获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别;
所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核;其中,卷积核高度h可变,1≤h≤m,m为词向量矩阵高度,n为词向量维度;
根据每一个卷积核kernel,输入词向量矩阵W,卷积层一行输出yi,按以下方式运算得到点积的值yij:
yij=f(kernel·[vj,vj+h-1]+b);
其中,b是偏置项,v是词向量,[vj,vj+h-1]表示词向量矩阵W中尺寸为h×n的子矩阵,由词向量矩阵W中j行到j+h-1行的词向量v构成,1≤j≤m;卷积核kernel从上至下与尺寸为h×n的子矩阵做点积,拼接所有点积的值yij得到一行的输出yi;
所述对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别,包括按以下方式运算得到各个分类类别的结果pi:
其中,i为一个分类类别,pi为分类类别i的概率,z为全连接层的输出向量,其下标为向量对应位置的数值,k为所有分类类别的总数,各个分类类别的概率pi相加和为1。
2.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语,包括以下步骤:
对所述输入文本进行文本清洗及格式规范化;
运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语;其中,所述分词工具的词库预设有所述语料文本的游戏类用词;
对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。
3.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型;所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度。
4.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型的激活函数表达式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学;广州赫炎大数据科技有限公司,未经中山大学;广州赫炎大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911282726.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:羽毛纱的染色工艺
- 下一篇:一种用于火箭贮箱清洗的三自由度翻转台