[发明专利]一种面向领域问答的知识图谱构建方法在审
申请号: | 202011036897.5 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112163077A | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 黄翰;陈芳宇;李刚;徐杨;郝志峰 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/289 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 领域 问答 知识 图谱 构建 方法 | ||
1.一种面向领域问答的知识图谱构建方法,其特征在于,包括以下步骤:
S1、基于专业领域收集用户对于该领域的常问问题及其答案,并由用户对上述问题进行分类形成问题集,将问题集及其答案数据存储在结构化数据库中,并基于这些数据训练中文预训练分类模型;
S2、使用步骤S1的问题集,对问题集中的每个问题进行分词和词性标注分类,将每一个问题的分词和词性标注所得到的词语按照字典序进行排序;相同类别构成的每一个问题分词和词性标注后得到的词语字典来构造当前分类的知识图谱,每个类别单独生成一个图谱,存储于图数据库中;
S3、根据对于用户问题按照实际需求进行子类别划分,根据子类别的结果以及关键词语集,在图数据库中对应类别的知识图谱中使用的检索规则进行检索,得到检索标号;
S4、根据步骤S3得到的检索标号,在结构化数据库中检索相应标号,提取标号在数据库中表示的问题,将这个问题所对应的答案返回给用户。
2.根据权利要求1中所述的一种面向领域问答的知识图谱构建方法,其特征在于,步骤S1的数据以三元组问题,答案,分类的形式存储在结构化数据库中。
3.根据权利要求2中所述的一种面向领域问答的知识图谱构建方法,其特征在于,收集用户对于该领域的常问问题及其答案及训练中文预训练分类模型步骤包括:
S11、收集通过人工梳理领域相关一问一答的数据形式,或者使用领域积累下来的人工客服与客户的聊天记录,再手动修改或者增添问答所面向的领域、用户的常问问题及其答案;
S12、根据问答所面向的领域,将用户的常问题根据实际项目需要而划分成若干个类别;
S13、将选择的问题,答案以及给其定义的分类结果保存在关系型数据库MySQL中,并给每个问题赋予一个独一无二的标号;
S14、选择谷歌提供的Bert-Base中文预训练分类模型作为中文的句子分类,将收集到的数据整理成以下格式:
问题类别
一行代表一个问题以及该问题所对应的分类类别;
S15、用随机抽样方法将问题集分割成训练集、验证集、测试集;
S16、采用训练集对Bert-Base中文预训练分类模型进行训练,并调整参数得到Bert-Base模型的Fine-Tune结果。
4.根据权利要求3所述的一种面向领域问答的知识图谱构建方法,其特征在于,步骤S2构建知识图谱步骤包括:
S21、在数据库中提取相同所属类别的标号,问题数据,使用jieba分词工具对问题进行分词、词性标注处理;
S22、将步骤S21处理得到的词性标注结果,按照领域专有词语的词性重要程度,去掉助词类的语气词,得到关键词语集;
S23、将经过步骤S22处理得到的对用户问题进行解析得到的用户问题解析词语集,使用中文字典顺序进行排序;
S24、将由步骤S23排序后得到的词语集保存在Neo4j图数据库;
S25、构造知识图谱,将排好序的词语集按照下面所述的规则导入图数据库:词语集中的词语对应图数据库中的节点,同一个问题解析出来的词语之间存在边的关系,代表是并列关系;每一个词语节点拥有的属性是一个字典,保存的是这个词语所属问题在数据库中的标号,由于每一个词语会出现在若干个问题中,使用字典保存序号集;
S26、将每一个类别下的所有问题,按照步骤S25的规则进行处理并导入到知识图谱中;
S27、通过将属于不同分类的问题集分别进行处理,各类别在图数据库中拥有相互独立的知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011036897.5/1.html,转载请声明来源钻瓜专利网。