[发明专利]一种用于电商直播场景的小样本多轮对话的生成模型有效
申请号: | 202210091152.1 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114417892B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 宫明 | 申请(专利权)人: | 北京中科深智科技有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/289;G06F40/242;G06F40/237 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 直播 场景 样本 轮对 生成 模型 | ||
1.一种用于电商直播场景的小样本多轮对话的生成模型,其特征在于,使用一元语言模型构建包含字和词的中文词表,使用jieba参照该词表对输入文本进行分词,使用分词后得到的字和词对输入进行表征;字或词,角色,轮数和位置嵌入的和作为嵌入的表征输入到模型;模型一共包含12个Transformer块,每个块中将解码器和编码器融合在一起,实现上下文理解和生成回复能够实现参数共享;在每个块中使用两种自注意掩码的方式来控制当前词对上下文词的访问;处于上下文位置的词,能够看到所有的上下文的词,处于回复位置的词,只能看到其之前的词;在最后的一层输出每个字对应的隐状态;训练的目标函数为最小化负对数似然损失函数:
其中θ代表对话生成模型的训练参数,D代表训练数据;对话的上下文c和目标回复r是成对输入到网络中的;其中T代表着生成目标回复r的长度,r<t代表第t个字之前生成回复的词;pθ(rt|c,r<t)代表给定上下文c和位置t-1及之前回复的词,生成第t个词的概率分布;从生成回复的第一个字到生成的第T个字,需要对T个概率分布进行相乘,对整体取log对数之后,得到做平均计算并取相反数即得公式:
对于生成模型,在推理阶段,使用解码的方法产生回复,采用解码时使用束搜索算法,且k=4,k表示束搜索算法中的超参数beam size;
使用电商数据训练好模型后,可以使用prompt直接进行推理, 初始化好模型后,使用样本数据,将其按照”上下文”+样本数据进行拼接,再和用户输入数据进行拼接后,饲喂给训练好的模型,进行生成, 对于电商类的对话,通过这样的方式,可以直接进行生成,不在需要使用大量的数据进行微调了。
2.根据权利要求1所述的一种用于电商直播场景的小样本多轮对话的生成模型,其特征在于,模型包含12层,每层包含上下文理解和回复生成两部分, 上下文理解部分采用编码器结构,当前字能够看到其前后的内容;在回复生成时采用是单向解码,每个字只能看到其之前的内容。
3.根据权利要求1所述的一种用于电商直播场景的小样本多轮对话的生成模型,其特征在于,输入部分效仿BERT的前处理过程,输入文本用jieba库参照使用一元语言模型构建的单词表进行分词标记;不同于BERT的输入由字嵌入、角色嵌入、位置嵌入三部分的和来表征,模型的输入部分将轮数嵌入融合进来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科深智科技有限公司,未经北京中科深智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210091152.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于线激光扫描的家具板材位置检测装置
- 下一篇:泊沙康唑中间体的制备方法