[发明专利]实体挖掘系统和方法有效
申请号: | 201611089730.9 | 申请日: | 2016-12-01 |
公开(公告)号: | CN108132947B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 张喜媛;曾刚;何戬 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/2458 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 陈姗姗 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 挖掘 系统 方法 | ||
1.一种实体挖掘系统,其特征在于,所述系统包括:
标注单元,配置用于获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;
规则挖掘单元,配置用于对标注实体的第一组知识信息进行分词筛选,得到一阶频繁项集,在所述一阶频繁项集中筛选出现频率最高的若干高频词汇,得到高频项集,对所述高频项集进行排列组合,并筛选共现频率最高的若干词组,根据筛选出的词组生成有序关联规则;
实体挖掘单元,配置用于获取当前领域的第二组知识信息,根据所述高频词汇对所述第二组知识信息进行标注,根据所述有序关联规则的正则表达式对标注高频词汇的第二组知识信息进行挖掘,得到若干实体候选;
过滤单元,配置用于根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出。
2.根据权利要求1所述的实体挖掘系统,其特征在于,所述标注单元进一步配置用于确认待挖掘实体的属性,所述若干实体的属性与所述待挖掘实体相同或相关联。
3.根据权利要求1所述的实体挖掘系统,其特征在于,所述过滤规则包括以下至少一项:长度过滤、标点过滤、前缀过滤、后缀过滤和已知实体过滤。
4.根据权利要求1所述的实体挖掘系统,其特征在于,所述过滤单元进一步配置用于输出实体候选以供人工评估过滤,并接收人工过滤结果。
5.根据权利要求1-4任一项所述的实体挖掘系统,其特征在于,还包括以下至少一项:
知识信息存储单元,配置用于存储至少一个领域的知识信息;
实体存储单元,配置用于存储至少一个领域的实体字典;
输入单元,配置用于输入实体;
知识爬取单元,配置用于从互联网爬取知识信息。
6.根据权利要求1-4任一项所述的实体挖掘系统,其特征在于,所述当前领域为医疗领域,所述知识信息为医疗问答数据。
7.一种实体挖掘方法,其特征在于,所述方法包括:
获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;
从标注实体的第一组知识信息中筛选若干关联的高频词汇,对所述高频 词汇进行排列组合,并筛选所述若干高频词汇中共现频率最高的若干词组以生成有序关联规则,具体包括:
对标注实体的第一组知识信息进行分词筛选,得到一阶频繁项集;
在所述一阶频繁项集中筛选出现频率最高的若干高频词汇,得到高频项集;
对所述高频项集进行排列组合,并筛选共现频率最高的若干词组;
根据筛选出的词组生成有序关联规则;获取当前领域的第二组知识信息,根据所述有序关联规则的正则表达式对所述第二组知识信息进行挖掘,得到若干实体候选,具体包括:获取当前领域的第二组知识信息;
根据所述高频词汇对所述第二组知识信息进行标注;
根据所述有序关联规则的正则表达式对标注高频词汇的第二组知识信息进行挖掘;
根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出。
8.根据权利要求7所述的实体挖掘方法,其特征在于,所述获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注包括:
确认待挖掘实体的属性;
获取当前领域的第一组知识信息,以及具有与所述待挖掘实体相同或相关联属性的若干实体;
根据所述若干实体对所述第一组知识信息进行标注。
9.根据权利要求7所述的实体挖掘方法,其特征在于,所述过滤规则包括以下至少一项:长度过滤、标点过滤、前缀过滤、后缀过滤和已知实体过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611089730.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:序列化数据的展示方法及装置
- 下一篇:处理爬取网页的方法和装置