[发明专利]提取用于抽取实体的模板的方法和设备在审
申请号: | 201410663066.9 | 申请日: | 2014-11-19 |
公开(公告)号: | CN105677632A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 方瑞玉;缪庆亮;张波;房璐;孟遥 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;吴琼 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 用于 抽取 实体 模板 方法 设备 | ||
1.一种提取用于抽取实体的模板的方法,包括:
从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的 普通字符和元字符的组合、相应的评价值;
根据参考表,从训练语料中,提取候选模板;
利用验证语料,验证候选模板的有效性;
根据验证结果,调整所述参考表中的相关评价值;以及
在满足第二预定条件时将所述第二预定条件被满足时的候选模板确 定为所提取的模板。
2.如权利要求1所述的方法,其中,所述模板包括针对模板抽取对 象的上下文的外部模板和针对模板抽取对象本身的内部模板,对应于所述 外部模板的所述普通字符表示模板抽取对象的上下文的被泛化的一部分, 对应于所述外部模板的所述元字符表示所述普通字符对应的词的个数和 相对位置,对应于所述内部模板的所述普通字符表示模板抽取对象本身的 被泛化的一部分,对应于所述内部模板的所述元字符表示所述普通字符对 应的词的个数和相对位置。
3.如权利要求1所述的方法,其中,所述从训练语料中,创建参考 表包括:
针对所述训练语料中的每一个句子,根据其中对于应抽取的实体的标 注,按照所述预定条件,抽取所述普通字符和元字符;
根据所述普通字符在所述训练语料中出现的次数,计算所述相应的评 价值。
4.如权利要求1所述的方法,其中,所述根据参考表,从训练语料 中,提取候选模板包括:
针对所述训练语料中的每一个句子,每次随机选择一个或多个词或短 语进行泛化,以得到初步模板;
去除重复的初步模板和合并存在包含关系的初步模板,以得到备选模 板;
根据所述参考表中符合备选模板的普通字符和元字符的组合的相应 评价值,计算备选模板的得分;
选取得分最高的预定数量的备选模板,作为所述候选模板。
5.如权利要求1所述的方法,其中,所述利用验证语料,验证候选 模板的有效性包括:
利用候选模板,抽取验证语料中的实体;
比较所抽取的实体与验证语料中标注的实体的一致性。
6.如权利要求1所述的方法,其中,所述根据验证结果,调整所述 参考表中的相关评价值包括:
当验证结果表明候选模板有效时,增大与该候选模板相关的、所述参 考表中的评价值;
否则,减小与该候选模板相关的、所述参考表中的评价值。
7.如权利要求1所述的方法,还包括:在所述确定步骤后,
基于所提取的模板,抽取新的已标注的扩展语料中的实体;
当所抽取的实体与所述扩展语料中的标注的实体一致时,利用扩展语 料中的词或词语,更新所述参考表中的普通字符。
8.如权利要求1所述的方法,还包括:在所述确定步骤后,
基于所提取的外部模板,抽取出新的未标注语料中的第一实体;
基于所提取的内部模板,抽取出所述新的未标注语料中的第二实体;
将第一实体和第二实体的交集,作为实体抽取的结果。
9.如权利要求1所述的方法,还包括:在所述确定步骤后,
基于所提取的外部模板和内部模板之一,抽取出新的未标注语料中的 第三实体;
基于所提取的外部模板和内部模板中的另一个模板,过滤所抽取到的 第三实体,作为实体抽取的结果。
10.一种提取用于抽取实体的模板的设备,包括:
参考表创建装置,其用于:从训练语料中,创建参考表,所述参考表 包括:符合第一预定条件的普通字符和元字符的组合、相应的评价值;
候选模板提取装置,其用于:根据参考表,从训练语料中,提取候选 模板;
有效性验证装置,其用于:利用验证语料,验证候选模板的有效性;
评价值调整装置,其用于:根据验证结果,调整所述参考表中的相关 评价值;以及
控制装置,其用于:在满足第二预定条件时将所述第二预定条件被满 足时的候选模板确定为所提取的模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410663066.9/1.html,转载请声明来源钻瓜专利网。