[发明专利]一种法律知识图谱自动构建方法在审
申请号: | 201710270508.7 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107122444A | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 齐宇馨;阿孜古丽;贾麒;张德政;谢永红;金佩 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市广友专利事务所有限责任公司11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律知识 图谱 自动 构建 方法 | ||
技术领域
本发明涉及知识工程技术领域,特别是指一种法律知识图谱自动构建方法。
背景技术
知识图谱(Knowledge Graph,KG)旨在描述客观世界的概念、实体、事件及其之间的关系。知识图谱将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答、大数据分析与决策中显示出强大威力,已经成为互联网基于知识的智能服务的基础设施。知识图谱与大数据和深度学习一起,成为推动人工智能发展的核心驱动力之一。
知识图谱研究,一方面探索从互联网语言资源中获取知识的理论和方法;另一方面促进知识驱动的语言理解研究。随着大数据时代的到来,研究从大数据中挖掘隐含的知识理论与方法,将大数据转化为知识,增强对互联网资源的内容理解,将促进当代信息处理技术从信息服务向知识服务转变。
构建法律知识图谱对整合法律知识,挖掘法律热点,对法律事件预测,构建法律领域专家系统等将起到重要作用。但是,在现有的技术中,还没有构建好的法律知识图谱。
发明内容
本发明要解决的技术问题是提供一种法律知识图谱自动构建方法,以解决现有技术所存在的缺少法律知识图谱的问题。
为解决上述技术问题,本发明实施例提供一种法律知识图谱自动构建方法,包括:
获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词;
根据分词后的语料,分别抽取三类审判文书的主题词,对抽取的主题词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语主题词作为法律知识图谱的实体概念;
获取与抽取的每一名词或名词短语主题词关系相近的词,对获取的相近词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念;
同属于主题词的实体概念之间形成主题关系,每一主题词实体概念与其相近词实体概念构成相近关系,根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱。
进一步地,所述获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词包括:
从网络上爬取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料;
使用现代汉语法律语域词表结合预先设定的输入法法律词典构造法律领域词典;
根据构造的法律领域词典对所述语料去停用词和进行分词。
进一步地,所述预先设定的输入法法律词典包括:搜狗输入法法律词典。
进一步地,所述根据构造的法律领域词典对所述语料去停用词和进行分词包括:
根据构造的法律领域词典,利用结巴分词工具对所述语料去停用词和进行分词。
进一步地,所述分词后的语料,分别抽取三类审判文书的主题词包括:
对分词后的民事、刑事、行政三类审判文书,应用LDA主题模型,分别抽取三类审判文书的主题词。
进一步地,所述对抽取的主题词进行词性标注和过滤包括:
利用Java开源工具Ansj去掉抽取的所述主题词中无意义的词语,所述无意义的词语包括:人名、地名;
去掉所述主题词中无意义的词语后,使用结巴分词工具进行词性标注和过滤,保留名词或名词短语主题词。
进一步地,所述获取与抽取的每一名词或名词短语主题词关系相近的词包括:
将分词后的民事、刑事、行政三类审判文书,分别作为训练集使用word2vec模型进行训练,得到法律领域民事、刑事、行政词汇的训练模型;
应用所述训练模型,获取与抽取的每一名词或名词短语主题词关系相近的词。
进一步地,所述对获取的相近词进行词性标注和过滤包括:
利用Java开源工具Ansj去掉获取的所述相近词中无意义的词语,所述无意义的词语包括:人名、地名;
去掉所述相近词中无意义的词语后,使用结巴分词工具进行词性标注和过滤,保留名词或名词短语相近词。
进一步地,在根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱之后,所述方法还包括:
利用可视化工具将构建的所述法律知识图谱可视化显示。
进一步地,所述可视化工具包括:Neo4j图形数据库。
本发明的上述技术方案的有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710270508.7/2.html,转载请声明来源钻瓜专利网。