[发明专利]会话信息处理方法及其装置、存储介质有效
申请号: | 201780054093.8 | 申请日: | 2017-10-23 |
公开(公告)号: | CN109964223B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 舒悦;林芬 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 于天琳;王琦 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 会话 信息处理 方法 及其 装置 存储 介质 | ||
1.一种会话信息处理方法,其特征在于,包括:
从一个会话中提取待分析语句和预设数量的所述待分析语句的上文语句;
将所述待分析语句和所述预设数量的上文语句按照会话中的语句先后顺序进行拼接,得到拼接语句;相邻的上文语句之间采用第一字符分隔,所述待分析语句和与其相邻的上文语句之间采用第二字符分隔;
从所述拼接语句中提取第一N-gram特征,并将从所述拼接语句提取的所述第一N-gram特征作为第一特征形成第一特征集合;
对所述待分析语句进行分词,得到第二N-gram特征,并将根据所述待分析语句得到的所述第二N-gram特征作为第一词形成第一词集合;
对所述预设数量的上文语句中的各个上文语句进行分词,得到第三N-gram特征,并将根据所述预设数量的上文语句得到的所述第三N-gram特征作为第二词形成第二词集合,其中N为预设整数;
从所述待分析语句对应的所述第一词集合和所述预设数量的所述上文语句对应的所述第二词集合中提取包括一个或多个第二特征的第二特征集合;其中,一个第二特征包括第一词和第二词组成的词组或语句,所述第一词为所述第一词集合中的一个或者多个词,所述第二词为所述第二词集合中的一个或多个词;及
根据所述第一特征集合和所述第二特征集合,确定所述待分析语句所属的语句类别;所述语句类别包括表示语句完整且语义不存在歧义的第一类别或表示语句不完整或者语义存在歧义的第二类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征集合和所述第二特征集合,确定所述待分析语句所属的语句类别,包括:
将所述第一特征集合和所述第二特征集合中每一个特征进行编码,得到该特征对应的第一向量,各个第一向量中元素的个数相同;
根据各个所述第一向量,确定一个第二向量;所述第二向量为表示所述待分析语句和所述预设数量的上文语句的向量;
将所述第二向量输入预设分类器,得到所述待分析语句与各个语句类别之间的匹配度;
根据所述待分析语句与各个语句类别之间的匹配度,确定所述待分析语句所属的语句类别。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一特征集合和所述第二特征集合中每一个特征进行编码之前,所述方法还包括:
将每一个第一特征输入预设的哈希函数,得到该第一特征对应的哈希值;所述哈希函数能够将输入特征映射到预设区间的一个整数上;
其中,所述将所述第一特征集合和所述第二特征集合中每一个特征进行编码,得到该特征对应的预设维度的第一向量,包括:
将哈希值相同的第一特征作为一个特征进行编码,得到对应的一个第一向量。
4.根据权利要求3所述的方法,其特征在于,所述哈希函数包括:
f1(x1)=x1 mod n
式中,x1为所述哈希函数的输入特征;f1(x1)为哈希值,且为[0,n-1]中的整数。
5.根据权利要求2所述的方法,其特征在于,所述预设数量为第一预设数量;所述将所述第二向量输入预设分类器之前,所述方法还包括:
将所述第二向量输入变换模型,该变换模型包括第二预设数量的变换函数,所述变换函数能对输入数据进行非线性变换;其中,若所述第二预设数量大于或等于2,则相邻的两个变换函数中,前一个变换函数的输出数据为后一个变换函数的输入数据;
其中,所述将所述第二向量输入预设分类器,包括:
将所述变换模型的输出数据输入所述预设分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780054093.8/1.html,转载请声明来源钻瓜专利网。