[发明专利]一种基于机器学习的文书图谱抽取方法、装置及存储介质在审

申请号：	202110121035.0	申请日：	2021-01-28
公开（公告）号：	CN112445915A	公开（公告）日：	2021-03-05
发明（设计）人：	蓝建敏;李观春	申请（专利权）人：	京华信息科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	常柯阳
地址：	510520 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于机器学习文书图谱抽取方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于机器学习的文书图谱抽取方法、装置及存储介质。该方法包括获取文书文本，所述文书文本包括文书标题、文书体裁和文书内容；对所述文书文本进行碎片化处理，得到碎片化数据；根据所述碎片化数据，利用训练好的知识单元分类模型抽取文书图谱。本发明通过利用训练好的知识单元分类模型对文书文本进行抽取，得到结构化的文书图谱数据，能够自动形成“脑图结构”的文书图谱，让文书内容一目了然，能够大幅降低阅读时间，提高阅读质量。本发明可广泛应用于知识图谱技术领域。

技术领域

本发明涉及知识图谱技术领域，尤其是一种基于机器学习的文书图谱抽取方法、装置及存储介质。

背景技术

知识图谱是一种揭示实体之间关系的语言网络，通常用于描述现实世界中实物、人物、机构、城市等之间关系，用于情报分析、语义搜索、智能问答、推荐系统等。知识图谱的核心要点在于通过搜集一系列大数量级的结构化数据或非结构化数据，基于领域专业性知识对数据进行分析建模，并通过机器计算从中找出规律，生成相关数据的计算规则。文书里面很多概念不是实体，通常是一些摸不着看不见的概念，现有知识图谱技术不能够把一份文书解构成具有结构化的、脑图形式的图谱（文书图谱）。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于机器学习的文书图谱抽取方法、装置及存储介质。

本发明所采取的技术方案是：

一方面，本发明实施例包括一种基于机器学习的文书图谱抽取方法，包括：

获取文书文本，所述文书文本包括文书标题、文书体裁和文书内容；

对所述文书文本进行碎片化处理，得到碎片化数据；

根据所述碎片化数据，利用训练好的知识单元分类模型抽取文书图谱。

进一步地，所述对所述文书文本进行碎片化处理，得到碎片化数据这一步骤，具体包括：

根据换行符对所述文书文本进行分段处理，并保存至列表集；

遍历所述列表集，对所述列表集中的内容进行识别，得到识别结果；

当所述识别结果为章节时，抽取各个章节和各个子章节；

当所述识别结果为段落时，抽取各个段落，并根据各个段落的内容抽取各个段落下的句子。