[发明专利]结合关键词和语义理解表征的检索式回复对话方法及系统有效
申请号: | 202111538357.1 | 申请日: | 2021-12-16 |
公开(公告)号: | CN113934835B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 李太豪;张晓宁;阮玉平;郑书凯 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉;杨小凡 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 关键词 语义 理解 表征 检索 回复 对话 方法 系统 | ||
1.结合关键词和语义理解表征的检索式回复对话方法,其特征在于包括如下步骤:
S1,预处理对话文本语料,得到单句对话文本和单句对话分词信息;
S2,根据单句对话分词信息,通过训练好的词向量转换模型,获取单句对话向量表示;计算单句对话分词信息与所有单句对话文本的词频-逆向文件频率向量表示,根据单句对话向量表示与其对应的词频-逆向文件频率向量表示,得到该句对话的基于关键词表征学习的句向量表示;将单句对话文本,输入到预训练网络,得到基于语义理解网络学习的句向量表示;
S3,通过S2得到的基于关键词表征学习的句向量表示,构建分层的第一高速通道模型;通过S2得到的基于语义理解模型网络学习的句向量表示,构建分层的第二高速通道模型;
S4,针对当前的查询对话文本,基于S2获取当前查询对话文本的向量表示作为第一查询对话文本,将第一查询对话文本输入第一高速通道模型,检索出相似的对话文本,再将相似的对话文本对应的回复返回,得到第一回复列表;基于S2获取当前查询对话文本的向量表示作为第二查询对话文本,将第二查询对话文本输入第二高速通道模型,检索出相似的对话文本,再将相似的对话文本对应的回复返回,得到第二回复列表;
S5,将第一回复列表和第二回复列表,与当前查询对话文本建立一一对应的对话形式数据结构,根据该数据结构,通过S2分别计算出当前查询对话文本与第一回复列表和第二回复列表中每个回复的句向量表示,并计算当前查询对话文本的句向量表示分别与第一回复列表和第二回复列表中每个回复的句向量表示之间的距离;根据一一对应的对话形式数据结构,通过训练好的词向量转换模型,分别获取当前查询对话文本的向量表示分别与第一回复列表和第二回复列表中每个回复的向量表示,计算当前查询对话文本与每个回复之间词向量转换距离;
S6,通过训练好的预训练网络计算上下文是否匹配,将当前查询对话文本分别与第一回复列表和第二回复列表的每个回复,输入预训练网络中,得到匹配分数;将匹配分数与其对应的所述当前查询对话文本与第一回复列表和第二回复列表中每个回复的句向量表示之间的距离、词向量转换距离作为排序特征,输入精排模型中,获取精排后的回复结果顺序,选取回复结果顺序中最优回复作为当前查询对话文本的回复。
2.根据权利要求1所述的结合关键词和语义理解表征的检索式回复对话方法,其特征在于根据采集的对话文本语料,预处理得到单句对话文本和单句对话分词信息,将单句对话文本和单句对话分词信息输入词向量转换模型进行训练,得到训练好的词向量转换模型。
3.根据权利要求1或2所述的结合关键词和语义理解表征的检索式回复对话方法,其特征在于所述预处理,是对采集的对话文本语料进行拆分,得到单轮对话文本,单轮对话文本是以相邻的两句对话作为单轮的对话,对相邻的两句对话进行拆分,得到单句对话分词信息。
4.根据权利要求1所述的结合关键词和语义理解表征的检索式回复对话方法,其特征在于所述S2中的词频-逆向文件频率向量表示,是根据词频TF(x)与逆向文件频率IDF(x)的乘积确定,TF(x)根据词x在该句中出现的次数与该句所有的词数的比值确定,IDF(x)根据对话的所有数量与包含词x的所有对话数量的比值确定。
5.根据权利要求1所述的结合关键词和语义理解表征的检索式回复对话方法,其特征在于所述S2中,根据单句对话向量表示与其对应的词频-逆向文件频率向量表示,得到该句对话的基于关键词表征学习的句向量表示,包括如下步骤:
S2_1,将单句对话向量表示与其相应的词频-逆向文件频率向量表示相乘,得到矩阵;
S2_2,对矩阵的每行进行加权求和;
S2_3,对每个求和后的数值,分别除以单句对话的向量数,得到句向量表示。
6.根据权利要求1所述的结合关键词和语义理解表征的检索式回复对话方法,其特征在于所述S3中,将句向量表示输入高速通道模型,建立第一高速通道模型和/或第二高速通道模型,高速通道模型将向量构建成一张相互联通的图,并基于该图搜索某个顶点的K个最近邻。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111538357.1/1.html,转载请声明来源钻瓜专利网。