[发明专利]一种面向地质智能问答的数据自动化序列标注识别方法有效
申请号: | 202010804098.1 | 申请日: | 2020-08-11 |
公开(公告)号: | CN111930909B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 贺金龙;付立军;黄徐胜;唐珂珂;朱月琴;刘晓娟 | 申请(专利权)人: | 付立军 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/335;G06F16/35;G06F40/117;G06F40/169;G06F40/30 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 地质 智能 问答 数据 自动化 序列 标注 识别 方法 | ||
本发明涉及信息技术领域,提出了一种面向地质智能问答的数据自动化序列标注识别方法。本发明旨在金矿数据的智能问答过程中实现用户问答交互效果的准确性。主要方案包括,对金矿文献图谱数据进行整理、清洗,得到批量文献数据;针对文献数据使用BIOES标签进行字符数据的机器自动化标注得到金矿数据标注结果并采用深度学习进行输入训练,得到金矿文献数据的训练结果;将文献数据的训练结果应用于用户询问语句识别,得到用户询问语句的标注结果,然后进行属性分类,得到用户询问语句的分类;将标注结果与分类通过集合进行组合封装,得到用户询问语句中金矿数据的标注与询问语句语义属性的结果并映射到金矿知识图谱,得到用户询问知识结果。
技术领域
本发明涉及深度学习知识挖掘过程中的知识图谱应用技术领域,提出了一种实现智能问答平台的金矿数据自动化序列标注方法。
背景技术
当前,智能问答服务作为人工智能发展阶段的重要应用,其相比于传统的规则匹配与共现检索匹配具有较大的认知能力。在实现过程中首先通过引入知识图谱实现知识的概念及关系关联,然后在用户问答过程中使用深度学习的自动化序列标注方法进行领域识别及意图识别,进而实现智能问答平台。
目前,针对问答系统的实现多依赖于正则模板匹配、Elasticsearch的检索匹配,且在通用领域的问答较多,同时由于缺乏深入的语义知识解析,导致在特定领域实现智能问答服务具有挑战性。现有问答系统在处理中文文本时,一般通过分词技术将句子转化为词的表示,然后通过语义相似度计算(编辑距离、TFIDF的向量余弦相似度)进行语句的知识库匹配进而实现用户的询问回复。其中分词技术包括基于规则词典匹配、基于统计机器学习与基于深度学习三个发展阶段。基于规则词典匹配包括正向最大匹配、逆向最大匹配双向最大匹配;基于统计机器学习包括n元语言模型、最大熵模型及条件随机场等;随着web2.0向web3.0迈进阶段产生的海量数据信息,基于深度学习的分词方法不断兴起,其包括卷积神经网络、循环神经网络及长短时记忆网络及与条件随机场相结合的方式等,其在识别过程中采用的标签方式为BIO或者BIOES标签。
现有标注方法的缺点:
(1)对于金矿知识挖掘发现过程中,大量数据信息的人工处理耗时耗力,且处理效率不高。
(2)针对分词工具的应用,严重依赖于词典的构建,当在金矿信息处理过程中,无法达到应用效果,其在通用领域效果较好。
(3)对于海量金矿数据的序列标注,在现有技术方法的基础上还需要借助于特定领域知识类别的结构化信息。
发明内容
本发明旨在金矿数据的智能问答过程中实现用户问答交互效果的准确性,构建基于自动化序列标注的深度学习识别方法,采用金矿领域文献与图谱相结合的方式进行构建。
本发明为了解决上述技术问题,采用以下技术方案:
一种面向地质智能问答的数据自动化序列标注识别方法,包括以下步骤:
步骤1:对金矿文献图谱数据进行整理,得到领域实体分类描述标签(包含实体),作为领域知识实体识别的标注标签;
步骤2:对文献数据内容进行机器自动清洗,包括过滤英文字母、标点符号及无意义符号,得到有效中文文本内容;
步骤3:对清洗后的文本内容以单独的txt文件存放,得到批量文献数据的存放根路径;
步骤4:针对步骤3中得到的文献数据使用BIOES标签进行字符数据的机器自动化标注,这里结合整理的图谱实体分类描述数据进行标签组合,得到由B、I、O、E、S开头的金矿数据标注结果;
步骤5:采用深度学习中双向LSTM的模型与条件随机场CRF结合方式对步骤4金矿数据标注结果字符序列数据进行输入训练,通过调整LSTM模型中记忆细胞的结构及整体参数,加入整理的金矿图谱实体数据,得到金矿文献数据的训练结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于付立军,未经付立军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010804098.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有身份识别功能的手机存储柜
- 下一篇:一种移动终端自动充电装置