[发明专利]知识库的构建方法及装置有效
申请号: | 201510515887.2 | 申请日: | 2015-08-20 |
公开(公告)号: | CN105138631B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 汪平仄;陈志军;龙飞 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 构建 方法 装置 | ||
1.一种知识库的构建方法,其特征在于,所述方法包括:
获取文本语料,根据预设属性描述模式判断所述文本语料中是否包含第一信息,所述第一信息包括预设实体集合中的实体的属性信息,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合,所述预设属性描述模式包括含*量、<含有|含>*<#NUM>克、*<中|里><含有|含|富含>*中的一种或多种,其中,*是用于匹配任意字符串的通配符,|是表示“或者”的符号,<#NUM>是用于匹配一个数字字符串的符号,<、>成对出现,用于包含多个近义词;
在确定所述文本语料中包含所述第一信息时,提取所述第一信息,根据所述第一信息和所述第一信息所对应的实体构建所述知识库。
2.根据权利要求1所述的知识库的构建方法,其特征在于,所述根据预设属性描述模式判断所述文本语料中是否包含第一信息,包括:
根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述第一句子集合中获得候选第一信息,所述候选第一信息包括预设实体集合中的所述实体的属性信息;
对所述候选第一信息的出现次数进行统计,当所述候选第一信息的出现次数大于预设阈值时,将所述候选第一信息确定为所述第一信息。
3.根据权利要求1所述的知识库的构建方法,其特征在于,所述根据预设属性描述模式判断所述文本语料中是否包含第一信息,包括:
根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
根据所述预设属性描述模式从所述第一句子集合中获得多个候选第一信息,所述多个候选第一信息包括所述实体的属性信息;
将所述第一句子集合中包含的所述实体及其对应的多个候选第一信息组成二元组集合;
统计每个候选第一信息的出现次数,从所述二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组,根据当前二元组集合中包含的二元组元素确定为所述第一信息。
4.根据权利要求1-3任一项所述的知识库的构建方法,其特征在于,所述方法还包括:
根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,所述第二信息包括所述第一信息的属性信息;
在确定所述文本语料中包含所述第二信息时,提取所述第二信息,根据所述第一信息、所述第二信息和所述第一信息所对应的实体更新所述知识库。
5.根据权利要求4所述的知识库的构建方法,其特征在于,所述根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,包括:
根据所述预设属性描述模式,从所述文本语料中获得包含所述第一信息的第二句子集合;
在所述第二句子集合中包括数量型实体时,将所述数量型实体提取为候选第二信息;
将所述实体、所述第一信息和所述候选第二信息组成三元组集合;
针对当前三元组集合中每个实体的每个第一信息,统计对应的每个候选第二信息的出现次数,将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510515887.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石墨烯快速剥离的方法
- 下一篇:一种井盖开启装置