[发明专利]一种基于知识图谱的金融问题反问方法及系统在审
申请号: | 202011319803.5 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112287090A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 熊常春;王敬贵;李海良;张林;刘昂;吴江川 | 申请(专利权)人: | 深圳季连科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/295 |
代理公司: | 广州海藻专利代理事务所(普通合伙) 44386 | 代理人: | 郑凤姣 |
地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 金融 问题 反问 方法 系统 | ||
1.一种基于知识图谱的金融问题反问方法,其特征在于,所述方法包括以下步骤:
根据提问分类模型对用户输入的内容进行场景情况分类,当分类结果为内容不明确或为重要内容时进行反问的场景情况时进行反问操作;针对金融问答知识体系构建知识图谱;基于知识图谱进行反问句匹配;获取反问实体和实体类型结构,结合句式模板库获取反问句式,并生成反问句;根据生成的反问句,合成为反问相关类型的语音和显示效果,对用户进行反问。
2.根据权利要求1所述的方法,其中,所述对用户输入的内容进行场景情况分类主要包括以下步骤:
判断用户输入的内容是否存在歧义,包括对输入内容进行分词,通过歧义消解算法判断用户的提问是否是能够被识别,当歧义消解算法判定输入内容中存在歧义,则进一步判断是否歧义两者的概率,当其中歧义的两种分词结果,一方大于另一方超过一定阈值,则无需提问,反之,需要对用户进行提问;
若用户输入的内容不存在歧义,则判断用户的输入内容是否粒度合适,包括获取用户输入的内容,进行命名实体识别,获取内容的实体词,通过同义词词林匹配出词语在同义词词林中的哪一层,若层数小于或等于2层,则认为粒度不合适,需要对用户进行反问。
3.根据权利要求2所述的方法,其中,所述构建知识图谱,主要包括以下步骤:
构建层级知识体系,所述体系结构包括设定的大类、小类和要素;基于序列标注的关键词自动提取技术抽取输入内容的关键词;基于预训练模型的lookup table embedding将关键词转化成词语向量;输入word2vec模块,获得各个关键词的相近词或不同表述;判断这些词语在同一个句中是否共现,当共现概率大于预设的次数时,提取出问题和小类的关系、或者提取出小类和要素的关系。
4.根据权利要求3所述的方法,其中,所述基于知识图谱进行反问句匹配,主要包括:
构建提问分类模型,所述提问分类模型为能够对输入文本进行场景情况分类的文本分类模型;
获取训练语料,包括获取金融对话语料以及对其进行场景情况标注后得到的场景标签;
根据训练语料训练提问分类模型,反复迭代直至收敛,得到训练后的提问分类模型;
训练后的提问分类模型对用户输入的内容进行场景情况分类,判断是否需要进行反问操作。
5.根据权利要求4所述的方法,其中,所述获取反问实体和实体类型结构还包括,
收集用户的金融提问数据作为训练集文本,收集人工签注的实体类型标签的词向量集,对训练集文本进行分词预处理;
使用word2vec工具构建的词向量空间,获取训练集文本中词的分布式形式表示的词向量;
利用训练集中词向量以及每个词向量已有的实体类型标签,使用谷歌的BERT模型在BLSTM-CRF模型上进行预训练得到BERT-BiLSTM-CRF-NER实体类别预测模型,采用该模型对输入内容进行分析并获得实体和实体类型。
6.根据权利要求4或5所述的方法,其中,所述反问实体还可以根据知识图谱关系对和embedding向量相似度获取,根据知识图谱关系获取用户输入内容的关键词汇,并转换为embedding向量,对多个embedding向量进行相似度计算,若找到满足相似度阈值的词,说明要素被提及;否则存在要素缺失,取出对应的要素关键词作为反问实体。
7.根据权利要求1所述的方法,其中,所述获取反问句式还包括,根据获取的实体类型结构与句式模板库进行比对和匹配,得到所述实体类型结构对应的反问句式。
8.根据权利要求1所述的方法,其中,所述生成反问句还包括,基于反问实体和反问句式,调用GPT2模型进行反问句的生成;或基于反问实体、反问句式和albert模型生成反问句。
9.根据权利要求1所述的方法,其中,所述根据生成的反问句,合成为反问相关类型的语音和显示效果,对用户进行反问,主要包括:
采用百度语音合成AipSpeech接口进行分析,通过调整语速、音量、音调,达到反问句重点强调的效果。
10.一种基于知识图谱的金融问题反问系统,其特征在于,所述系统包括:
场景情况分类模块,用于对用户输入的内容进行场景情况分类;
知识图谱关系模块,能够对用户输入的内容的要素进行判断和分类;
反问句生成模块,用于获取反问实体、实体类型结构和反问句式,最终生成反问句;
声音表情设计模块,用于根据反问句设计相匹配的金融机器人进行反问时的声音和显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳季连科技有限公司,未经深圳季连科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011319803.5/1.html,转载请声明来源钻瓜专利网。