[发明专利]一种自然语言处理及其知识图谱构筑系统在审
申请号: | 202111444342.9 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114254118A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 李凯;曹进平;沈佳;杨大伟;赵忠浩 | 申请(专利权)人: | 国网新疆电力有限公司信息通信公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F16/35 |
代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 尹新路 |
地址: | 830000 新疆维吾尔自治区乌*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 处理 及其 知识 图谱 构筑 系统 | ||
1.一种自然语言处理及其知识图谱构筑系统,其特征在于:包括AI处理单元,所述AI处理单元连接有数据预处理模块与数据综合处理模块,所述内建运行有知识推理程序与知识图谱构建程序;
所述数据预处理模块的数据输入端连接有数据输入模块,所述数据预处理模块的数据输出端连接有数据综合处理模块;
所述数据综合处理模块内建运行有数据分类程序,且分类程序包括主体分类、概念分类、实物分类与事件分类。
2.根据权利要求1所述的一种自然语言处理及其知识图谱构筑系统,其特征在于:所述数据预处理模块内建有数据预处理程序,可对经由数据输入模块传输而来的数据进行预处理工作,即先对数据进行初步分析,分析其自然语言的语境,即包括物理语境、言语语境、知识语境与语境的生命周期,其中物理语境包括时间、地点、天气、情绪情感与设备显示感知等,其中言语语境包括上下文、主体与设备反馈,其中知识语境包括常识共识、专业领域知识、Agent画像、设备信息库与用户画像,其中语境的生命周期包括请求氛围、会话场景与长期会话。
3.根据权利要求1所述的一种自然语言处理及其知识图谱构筑系统,其特征在于:所述数据综合处理模块可对数据预处理模块传输而来的预处理数据进行二次处理,即对其进行再次细分,并运行其分类程序,进行主体分类、概念分类、实物分类与事件分类,其中主题分类包括科技技术分类,囊括互联网技术分类、通信技术分类与手机信息分类等,其中概念分类包括人工智能分类与手机分类,囊括深度学习、自动驾驶、自动化机器、智能手机与非智能手机等,其中实体分类包括智能车辆分类与数码相关产品分类等,其中事件包括智能车辆相关事件与数码产品相关事件分类。
4.根据权利要求1所述的一种自然语言处理及其知识图谱构筑系统,其特征在于:其系统运行步骤如下:
S1.数据输入,经由数据输入模块进行数据向系统的输入,其中数据输入模块运行,可进行IO设备的数据输入、语音设备的语音输入与网络移动端的在线数据导入等多种数据输入,完成数据输入后,其数据输入模块可对输入的数据进行基本的安全审核,确保数据安全性后,将数据传输至数据预处理模块;
S2.数据预处理,数据传输至数据预处理模块,可建立mention-entity的关系表,抽取entity相关特征,实现实体上下文次分布与篇章的主题词分布,进行实体之间的语义关联度,发现文本中的mention,并找到候选词实体,对候选词实体排序,返回最有可能的实体,确认实体本身的信息,确定实体与实体之间协同关系;
S3.数据处理,数据综合处理模块对数据预处理后的信息进行二次处理,运行其分类程序,进行主体分类、概念分类、实物分类与事件分类,进而进行分词工作,将每个句子切割为词语,然后进行词性标注,接着对标注过的句子进行命名实体识别,最后搜索实体间可能存在的关系,所以在对文句子进行命名实体识别之前必须对进行分词和词性标注,其中包括对分词粒度、语境歧义与未录入词语的分析;
S4.AI处理单元运行知识推理程序,构建本体层,进行实体抽取,再进行关系抽取,构建知识抽取框架,基于深度学习端到端的联合标注,将抽取问题转换成标注任务,训练一个端到端标注模型来抽取关系,根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,实体对齐,将实体归并成代表真实世界同一对象的具有全局唯一标识的实体对象,具有相同描述的实体可能是同一实体,具有相同属性-值的实体可能是相同对象,具有相同邻居的实体可能是同一实体,考虑数据源的可靠性以及不同信息,在各个数据源中出现频度来决定最终选用哪个类别和哪个属性值,进行知识推理,基于符号的推理,基于OWL本体的推理,基于图的方法,将量级两个实体的路径作为特征来预测其之间的可能存在的关系,基于分布式知识语义表达的方法,将实体和关系映射到一个低纬度embedding空间中;
S5.AI处理单元运行知识图谱构建程序,模式设计,其中属性定义,约束及规则的定义与模式精简,其数据来源包括领域百科表格、通用百科导出、业务系统导出与外部系统的输入,以及词汇挖掘,同义词挖掘、缩率词挖掘、 短语挖掘与情感词挖掘,实体发现,其中包括实体实现、实体归类与实体链接,关系发现囊括关系分类,而知识融合包括实体对齐、属性融合与值规范化,最终构筑知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网新疆电力有限公司信息通信公司,未经国网新疆电力有限公司信息通信公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111444342.9/1.html,转载请声明来源钻瓜专利网。