[发明专利]辽代历史文化领域知识图谱及其智能问答系统的构建方法在审
申请号: | 202011313409.0 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112417100A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 刘爽;谭楠楠;孟佳娜;于玉海;赵丹丹 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 马庆朝 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辽代 历史文化 领域 知识 图谱 及其 智能 问答 系统 构建 方法 | ||
1.一种辽代历史文化领域知识图谱的构建方法,其特征在于,步骤如下:
步骤1:根据实体所属类别进行图谱设计;
步骤2:根据图谱设计获取相应数据;
步骤3:对原始语料进行处理;
步骤4:对处理后的原始语料进行命名实体识别和关系抽取;
步骤5:构建知识图谱。
2.如权利要求1所述的辽代历史文化领域知识图谱的构建方法,其特征在于,针对步骤1,所述实体类别包括:中文名、别称、都城、历史人物、语言、民族、军事部署、施行制度、艺术形式、科技、外交往来、服饰、发饰、商业往来、人口数量、宗教、民俗、建筑,每个实体类别下包含若干个实体,每个实体中都包含其相应的属性信息用于刻画该实体的内在特征;针对步骤2,根据图谱设计,通过网络爬虫从百科网站、相关书籍、历史网站获取相关的结构化数据、半结构化数据、非结构化数据。
3.如权利要求2所述的辽代历史文化领域知识图谱的构建方法,其特征在于,针对步骤3,使用jieba分词工具对数据进行分词和词性标注,并去除标点符号和停用词。
4.如权利要求3所述的辽代历史文化领域知识图谱的构建方法,其特征在于,针对步骤4,对于获取的半结构化数据进行整体后保存,使用深度学习方法对非结构化数据进行实体识别和关系抽取,然后将获取的数据进行知识融合。
5.如权利要求4所述的辽代历史文化领域知识图谱的构建方法,其特征在于,针对步骤5中将步骤4中整理好的数据,使用Neo4j进行存储。
6.一种基于辽代历史文化领域知识图谱的智能问答系统的构建方法,其特征在于,步骤如下:
步骤1:对用户输入的自然语言问句进行命名实体识别;
步骤2:对问句进行问句意图识别;
步骤3:知识库答案检索,返回答案;
步骤4:构造问答库;
步骤5:对问答库进行深度语义匹配,生成返回答案。
7.如权利要求6所述的基于辽代历史文化领域知识图谱的智能问答系统的构建方法,其特征在于,针对步骤1,对用户输入的问句进行预处理后,通过深度学习的方法来进行实体识别。
8.如权利要求7所述的基于辽代历史文化领域知识图谱的智能问答系统的构建方法,其特征在于,针对步骤2,通过textCNN卷积神经网络识别问句意图。
9.如权利要求8所述的基于辽代历史文化领域知识图谱的智能问答系统的构建方法,其特征在于,针对步骤3,将步骤1中得到的实体和步骤2中得到的关系或属性用cypher语句构建查询语句,用于Neo4j图数据库中进行答案的查找。
10.如权利要求9所述的基于辽代历史文化领域知识图谱的智能问答系统的构建方法,其特征在于,针对步骤4,若步骤3中未查询到对应三元组则通过爬虫方法爬取相关问答网站及论坛,对用一问题的答案筛选出点赞数量排名前2的、回答时间较早的答案存储到问答库中;针对步骤5,在问答库使用孪生网络进行深度语义匹配,进而构造答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011313409.0/1.html,转载请声明来源钻瓜专利网。