[发明专利]基于协同自扩展的命名实体集合扩展方法及查询推荐方法有效
申请号: | 201410293658.6 | 申请日: | 2014-06-26 |
公开(公告)号: | CN105205075B | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 孙乐;石贝 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 协同 扩展 命名 实体 集合 方法 查询 推荐 | ||
1.一种基于协同自扩展的命名实体集合扩展方法,其步骤为:
1)根据输入的种子集合,对每一种子生成一模板并对该模板的质量进行评估;
2)利用评估选取的模板进行实例抽取,并建立每一所选模板的模板-实例关系;
3)对于每一所选模板,根据所有所选模板的模板-实例关系计算被该模板抽取的实例是正实例的概率,然后根据概率值选取若干正实例和具有区分能力的负实例加入到该种子集合中;
4)持续迭代上述步骤1)~3),直至该种子集合中抽取的正实例的数目达到预设的阈值;其中得到的正实例集合作为扩展后的具有同一类别的命名实体集合,负实例为该命名实体集合的边界;
其中,对所述模板的质量进行评估的方法为:根据每个模板的抽取情况和实例的极性,将所有模板已抽取出的实体按照实体有没有被该模板被抽取和实体是否属于种子集合对应的语义类别划分为四类:ep为被抽取的正实例,en为被抽取的负实例,nep为没有被抽取的正实例,nen为没有被抽取的负实例;然后计算该模板普适性、抽取准确率和未抽取准确率,对该模板质量进行评估;所述普适性为所述抽取准确率为所述未抽取准确率为
2.如权利要求1所述的方法,其特征在于生成所述模板的方法为:对所述种子集合中的每个种子实体,将其与待扩展语料中的句子进行字符串匹配,获得匹配的句子;然后将被匹配的句子中的实体用通配符替换,获得该种子实体在该句子中的上下文,作为该种子的模板。
3.如权利要求1所述的方法,其特征在于根据公式确定所抽取实例是否为正实例,如果P+(e)高于设定阈值threshold(P+)且差值大于设定值,则该实例为正实例;其中,
P(p→e,e∈I+)为模板p抽取实体e且e是正实例的概率,是模板p没有抽取实体e且e是正实例的概率,
是指模板p抽取实体e且e是负实例的概率,是模板p未抽取实体e且e是负实例的概率;R+是所有抽取出实体e的模板所构成的集合,R-是所有没有抽取出实体e的模板所构成的集合,I+是所有正实例构成的集合。
4.如权利要求3所述的方法,其特征在于根据公式|P+(e)-threshold(P+)|<δ选取出具有区分能力的负实例,其中,δ为一设定参考值。
5.一种查询推荐方法,其步骤为:
1)对于一设定的命名实体,采用权利要求1~4任一所述方法从指定数据源中提取命名实体,建立一命名实体集合列表;
2)接收用户输入的待查询语句时,将该待查询语句中的命名实体替换为该命名实体集合中的另一命名实体生成查询建议返回给该用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410293658.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种甜玉米人参奶茶及其制备方法
- 下一篇:一种电商网站的页面信息获取方法