[发明专利]基于中文bert模型智能机器人的实现方法和系统在审
申请号: | 202110655974.3 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113553405A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 李法来;金震;熊婷;陆衡;张海平 | 申请(专利权)人: | 中国农业银行股份有限公司浙江省分行 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/194;G06F40/211;G06F40/289;G06K9/62 |
代理公司: | 浙江杭知桥律师事务所 33256 | 代理人: | 陈丽霞 |
地址: | 310000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中文 bert 模型 智能 机器人 实现 方法 系统 | ||
1.基于中文bert模型智能机器人的实现方法,其方法包括,
数据集准备,对规则数据集和闲聊数据集进行准备从而形成数据文本;
数据文本分词,通过分词器对数据文本进行分词;
嵌入向量化,通过bert模型从分词后的文本数据中提取特征,进行单词和句子嵌入向量化;
相似度阈值获取,通过余弦相似度获取嵌入向量化后单词和句子的相似度阈值;
聊天判断,依据相似度阈值通过NLP判断,从而进行不同的聊天模式。
2.根据权利要求1的基于中文bert模型智能机器人的实现方法,其特征在于,聊天判断包括NLP规则层判断和NLP闲聊层判断。
3.根据权利要求1的基于中文bert模型智能机器人的实现方法,其特征在于,NLP规则层包括词性规则、文本相似度规则或情感倾向性规则。
4.根据权利要求2的基于中文bert模型智能机器人的实现方法,其特征在于,NLP规则层判断方式为:
对于上一轮问答为规则内,且为是否问题,进行情感倾向性分析;
子节点内容下包含词性规则,尝试进行词性匹配;子节点内容下包含文本规则,进行文本相似度匹配;否则,与所有一级节点的词性规则和子节点的独立词性规则,进行规则匹配;与所有一级节点的文本规则互不相同和子节点的独立文本规则尝试进行文本相似度匹配;
进入规则层,由上往下逐条分析,一旦某一条命中了并且有内容返回,则返回内容;否则继续向下分析,否则进入闲聊层。
5.根据权利要求2的基于中文bert模型智能机器人的实现方法,其特征在于,NLP闲聊层判断方式为,闲聊层的内容与规则层中的文本相似度匹配相似,通过bert模型对闲聊数据集的问题进行文本向量输出,将输入的问题进行相似度匹配。
6.根据权利要求2的基于中文bert模型智能机器人的实现方法,其特征在于,规则层数据集包括2份分别为第一份规则层数据集和第二层数据集,第一份规则层数据集包括所有数据节点中包含的规则和回复;第二份规则层数据集包括关键词和词性的映射表。
7.根据权利要求2的基于中文bert模型智能机器人的实现方法,其特征在于,bert模型包括输入和3个嵌入式向量,3个嵌入式向量分别为词的嵌入、位置的嵌入和句子的嵌入。
8.根据权利要求2的基于中文bert模型智能机器人的实现方法,其特征在于,通过bert模型从分词后的文本数据中提取特征通过对3个嵌入式向量求和输出。
9.根据权利要求2的基于中文bert模型智能机器人的实现方法,其特征在于,第一份规则层数据集包括是否问题、词性问题和文本规则。
10.基于中文bert模型智能机器人的实现系统,其包括,
数据集准备模块,用于准备规则数据集和闲聊数据集,从而形成数据文本;
数据文本分词模块,用于对数据文本进行分词通过分词器;
嵌入向量化模块,通过bert模型从分词后的文本数据中提取特征,用于单词和句子嵌入向量化;
相似度阈值获取模块,用于获取嵌入向量化后单词和句子的相似度阈值;
聊天判断模块,用于获取不同的聊天模式,依据相似度阈值通过NLP判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司浙江省分行,未经中国农业银行股份有限公司浙江省分行许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110655974.3/1.html,转载请声明来源钻瓜专利网。