[发明专利]一种多模型融合的FAQ匹配的方法及装置在审
申请号: | 202010852824.7 | 申请日: | 2020-08-22 |
公开(公告)号: | CN112101423A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 田东坡;巩乐;翟永佳;张铭 | 申请(专利权)人: | 上海昌投网络科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06F40/20 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 何东明 |
地址: | 200135 上海市浦东新区自由贸易试验区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 融合 faq 匹配 方法 装置 | ||
本发明适用于自然语言处理技术领域,提供了一种多模型融合的FAQ匹配的方法及装置,通过依次获得待处理问题的训练文本集,结合Bert‑encoder+DBScan聚类辅助提取并归纳出理财教育知识点,从而构建理财教育FAQ,人工标注少量相似问题,接着根据已标注的少量相似问题,生成大量相似问题,并做人工审核,构建句对匹配数据集,使用无监督模型和有监督深度学习模型训练句对匹配模型,最后句对匹配模型训练完成后,接收用户输入的问题,识别与输入问题最匹配的问题及其相应的答案输出,本发明并采用多个模型融合,训练或预训练模型,提取文本,匹配标准问题,并回复相应答案,以解决FAQ用户查看繁琐和人工客服效率低的问题。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种多模型融合的FAQ匹配的方法及装置。
背景技术
理财教育行业人工智能领域落地情况并不多,尤其是在FAQ上行业语料私密,不方便开源,限制了发展。
近年来NLP领域发展迅速,但是能落地到理财教育并取得较好效果的并不多,最前沿的FAQ句对匹配算法在理财教育领域落地情况并不好。
智能FAQ在知识点较多、问题语义极其相似的情况下,难以取得较好的效果。
发明内容
本发明提供一种多模型融合的FAQ匹配的方法及装置,旨在解决现有技术存在的问题。
本发明是这样实现的,一种多模型融合的FAQ匹配的方法及装置,包括以下步骤:
S1、获得待处理问题的训练文本集,结合Bert-encoder+DBScan聚类辅助提取并归纳出理财教育知识点,从而构建理财教育FAQ,人工标注少量相似问题;
S2、使用相似问题生成模块,根据已标注的少量相似问题,生成大量相似问题,并做人工审核,构建句对匹配数据集;
S3、构建预训练模型数据集;
S4、使用无监督模型和有监督深度学习模型训练句对匹配模型;
S5、句对匹配模型训练完成后,接收用户输入的问题,并将输入问题的文本到句对匹配模型,识别与输入问题最匹配的问题及其相应的答案输出,并回复给用户。
优选的,所述训练文本集包括文本长度限制3-50之间、删除表情、数字和邮件的文本。
优选的,所述无监督模型包括WMD模型、SIF模型;
所述有监督模型包括bert模型、albert模型、roberta模型。
本发明还提供一种多模型融合的FAQ匹配的装置,包括:
理财教育语料数据库,其用于储存预输入的FAQ语料数据,并生成训练文本集;
人工标注模块,其用于供操作人员在训练文本集中人工标注少量相似问题;
相似问题生产模块,其包括相似问题生成模型,所述相似问题生成模型用于根据已标注的少量相似问题,生成大量相似问题,并做人工审核,构建句对匹配数据集;
NLU模块,其用于训练句对匹配模型,并利用训练好的模型匹配用户输入的问题,找出最匹配的问题,将所述最匹配的问题及其相应的答案输出,并回复给用户。
优选的,所述训练文本集包括文本长度限制3-50之间、删除表情、数字和邮件的文本。
优选的,所述NLU模块包括无监督模型和有监督模型;
所述无监督模型包括WMD模型、SIF模型;
所述有监督模型包括bert模型、albert模型、roberta模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海昌投网络科技有限公司,未经上海昌投网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010852824.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种不锈钢管液压折弯机及其成型工艺
- 下一篇:一种水性结构密封胶及制备方法