[发明专利]知识库的构建方法及装置有效
申请号: | 201510515887.2 | 申请日: | 2015-08-20 |
公开(公告)号: | CN105138631B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 汪平仄;陈志军;龙飞 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 构建 方法 装置 | ||
本公开是关于一种知识库的构建方法及装置,其中,知识库的构建方法包括:获取文本语料,根据预设属性描述模式判断文本语料中是否包含第一信息,第一信息包括预设实体集合中的实体的属性信息;在确定文本语料中包含第一信息时,提取第一信息,根据第一信息和第一信息所对应的实体构建知识库。本公开实施例,在构建知识库的过程中不需要通过人工的方式进行知识挖掘,节省了人力且提高了知识库的构建速度。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种知识库的构建方法及装置。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
食物的营养价值是一种特殊的命名实体,包括营养成分名及其含量,例如“碳水化合物”、“20克”。
目前,论坛、留言、博客、新闻和百科上经常会介绍一些食物的营养价值,这些数据对于食物营养价值知识库的构建具有很大的价值。但是,通过人工的方式进行知识挖掘,需要耗费较大的人力且知识库的构建速度慢。
发明内容
本公开实施例提供一种知识库的构建方法及装置,用以解决通过人工方式构建知识库浪费人力且速度慢的问题。
根据本公开实施例的第一方面,提供一种知识库的构建方法,包括:
获取文本语料,根据预设属性描述模式判断所述文本语料中是否包含第一信息,所述第一信息包括预设实体集合中的实体的属性信息;
在确定所述文本语料中包含所述第一信息时,提取所述第一信息,根据所述第一信息和所述第一信息所对应的实体构建所述知识库。
在一实施例中,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述根据预设属性描述模式判断所述文本语料中是否包含第一信息,包括:
根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述第一句子集合中获得候选第一信息,所述候选第一信息包括预设实体集合中的实体的属性信息;
对所述候选第一信息的出现次数进行统计,当所述候选第一信息的出现次数大于预设阈值时,将所述候选第一信息确定为所述第一信息。
在一实施例中,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述根据预设属性描述模式判断所述文本语料中是否包含第一信息,包括:
根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
根据所述预设属性描述模式从所述第一句子集合中获得多个候选第一信息,所述多个候选第一信息包括所述实体的属性信息;
将所述第一句子集合中包含的所述实体及其对应的多个候选第一信息组成二元组集合;
统计每个候选第一信息的出现次数,从所述二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组,根据当前二元组集合中包含的二元组元素确定为所述第一信息。
在一实施例中,所述方法还包括:
根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,所述第二信息包括所述第一信息的属性信息;
在确定所述文本语料中包含所述第二信息时,提取所述第二信息,根据所述第一信息、所述第二信息和所述第一信息所对应的实体更新所述知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510515887.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石墨烯快速剥离的方法
- 下一篇:一种井盖开启装置