[发明专利]一种游戏平台用户问答业务的短文本分类方法有效
申请号: | 201911282726.8 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111104513B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 陶涛;刘冶;桂进军;陈宇恒;潘炎;印鉴 | 申请(专利权)人: | 中山大学;广州赫炎大数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F18/2415;G06N3/0464;G06N3/08 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 游戏 平台 用户 问答 业务 文本 分类 方法 | ||
本发明涉及一种游戏平台用户问答业务的短文本分类方法,对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取,拼接两个输出结果,通过算法得到该输入文本属于各类别的概率,并选择概率最大的一个类别作为最后输出;本申请能够充分挖掘出中文短文本所包含的语义信息,有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据,在短文本分类任务识别效果更好,效率也有很大的提升。
技术领域
本发明涉及智能客服领域,特别是涉及一种游戏平台用户问答业务的短文本分类方法。
背景技术
在智能客服领域中大量涉及自然语言理解的应用,会对用户提出的问题进行分类,根据问题的分类结果向客户提供相应的信息。目前,自然语言理解常用的模型是基于循环神经网络(Recurrent Neural Network,RNN)的各种变体网络。RNN的特点是可以处理时序数据,其神经元更新依赖上一次的输入以捕捉时序数据,而文本也可以看作一种时序数据,因为文本中的一个词语的出现会受前面词语的影响,因此RNN常用于自然语言理解问题。对于长文本类型的数据,改进的RNN模型如长短期记忆网络(Long Short-Term Memory,LSTM)和注意力机制(Attention Mechanism)都有不错的效果,可以在较长的文本距离上能捕捉到上下文联系。
不过在游戏平台用户问答业务场景之下,用户或玩家在提问过程中的表达更接近短文本类型的数据,极其容易出现语法的不完整而导致上下文内容缺失,现有技术常常难以应对。
发明内容
本发明的目的在于现有技术的局限,提供一种游戏平台用户问答业务的短文本分类方法,由以下技术方案实现:
获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。
相较于现有技术,本申请对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取,拼接两个输出结果,通过算法得到该输入文本属于各类别的概率,并选择概率最大的一个类别作为最后输出;本申请能够充分挖掘出中文短文本所包含的语义信息,有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据,在短文本分类任务识别效果更好,同时在效率上也有很大的提升。
进一步的,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语,可包括以下步骤:
对所述输入文本进行文本清洗及格式规范化;
运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语;其中,所述分词工具的词库预设有所述语料文本的游戏类用词;
对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。
由于用户的输入文本噪声数据较多,存在拼写错误或不完整的问题,因而可通过文本清洗去掉不包含语义信息的词语,并对文本的表达和格式进行纠正和规范化;同时,由于用户的输入文本中夹杂着游戏中一些专有的、非正式的用词用语,运用分词工具并在其词库预设所述语料文本的游戏类用词,能更加准确地对输入文本进行分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学;广州赫炎大数据科技有限公司,未经中山大学;广州赫炎大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911282726.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:羽毛纱的染色工艺
- 下一篇:一种用于火箭贮箱清洗的三自由度翻转台