[发明专利]知识图谱挖掘的方法和系统在审
申请号: | 202110678441.7 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113553439A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 高鹏;郝少春;袁兰;吴飞;周伟华;高峰;潘晶 | 申请(专利权)人: | 杭州摸象大数据科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/232;G06F40/295 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张超 |
地址: | 310000 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 挖掘 方法 系统 | ||
本申请涉及一种知识图谱挖掘的方法和系统,该知识图谱挖掘的方法包括:获取文本,并对文本进行纠错处理;根据预设的词表,对纠错处理后的文本进行分词和词性标注处理,得到文本中的字词和字词的词性;根据字词和词性,识别文本中的实体,并根据字词、词性和实体,抽取文本中的实体的属性和关系;根据实体,进行实体链接,并根据实体链接的结果、实体的属性和关系,进行知识融合,得到知识图谱,通过本申请,解决了相关技术中知识图谱的知识更新存在较大的滞后性的问题,达到了及时更新知识图谱的知识的效果。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种知识图谱挖掘的方法和系统。
背景技术
知识图谱(Knowledge Graph)在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,已经广泛应用于问答、搜索、推荐等多个领域。
在相关技术中,知识图谱挖掘过程需要人工参与,知识图谱挖掘是通过离线对信息进行挖掘,得到新知识,再通过定时的方式,更新该新知识至知识图谱的存储内容中,这导致知识图谱的知识更新存在较大的滞后性,例如,在智能机器人对话场景中,用户经常会提到很多新的知识,由于智能机器人的系统内的知识图谱未存储该部分知识,用户再次提到该知识时,智能机器人依然无法对该知识进行识别,直到该智能机器人被定时更新,获得该知识。
针对相关技术中,知识图谱的知识更新存在较大的滞后性的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种知识图谱挖掘的方法和系统,以至少解决相关技术中知识图谱的知识更新存在较大的滞后性的问题。
第一方面,本申请实施例提供了一种知识图谱挖掘的方法,所述方法包括:
获取文本,并对所述文本进行纠错处理;
根据预设的词表,对纠错处理后的所述文本进行分词和词性标注处理,得到所述文本中的字词和所述字词的词性;
根据所述字词和所述词性,识别所述文本中的实体,并根据所述字词、所述词性和所述实体,抽取所述文本中的所述实体的属性和关系;
根据所述实体,进行实体链接,并根据所述实体链接的结果、所述实体的所述属性和所述关系,进行知识融合,得到知识图谱。
在其中一些实施例中,所述词表的构建过程包括:
采用多个词性标注工具,并将多个所述词性标注工具中的词性均配置为目标词性标注集中的词性;
获取构建词表的基础数据,并对所述基础数据进行分句,输入分句后的所述基础数据至多个所述词性标注工具中,得到标注结果,其中,所述标注结果包括所述基础数据的字词和所述字词的词性;
在至少两个所述标注工具得到的所述标注结果相同的情况下,记录所述标注结果,并统计所述标注结果出现的频次,根据所述标注结果和所述频次,生成所述词表。
在其中一些实施例中,所述实体的识别过程包括:
分别通过词典和识别模型进行实体识别;
在所述词典的识别结果和所述识别模型的识别结果相同的情况下,采用该识别结果中的实体词;
在所述词典的识别结果为空,且所述识别模型的识别结果的置信度达到置信度阈值的情况下,保存所述识别模型的识别结果中的实体词和所述实体词的关联信息,其中,所述关联信息包括所述实体词所在的对话语句。
在其中一些实施例中,所述实体的属性和关系的抽取过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州摸象大数据科技有限公司,未经杭州摸象大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110678441.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清渣机全防护机罩
- 下一篇:一种深层快速降水动力固结装置及方法