[发明专利]识别自然语言中的命名实体的方法和装置有效
申请号: | 200610079890.5 | 申请日: | 2006-05-15 |
公开(公告)号: | CN101075228A | 公开(公告)日: | 2007-11-21 |
发明(设计)人: | 燕鹏举;孙羽菲;续木贵史 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 王玮 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 自然语言 中的 命名 实体 方法 装置 | ||
1.一种识别自然语言中的命名实体的方法,包括步骤:
利用逐步式识别器识别出候选命名实体;
利用拒识器抽取识别出的侯选命名实体基于字的全局特征;
使用所述全局特征来测试所述侯选命名实体;
如果测试得分超过一个事先给定的阈值,则接受所述候选命名实体, 否则被拒识;和
将拒识器识别出的候选命名实体组成网格,在此网格上搜索拒识得分 最大的路径。
2.根据权利要求1所述的方法,其中使用全局特征测试候选命名实体的 步骤包括将全局特征作为输入,使用单类支撑向量机对候选命名实体进行 测试的步骤。
3.根据权利要求1所述的方法,其中所述逐步式识别步骤包括前向逐步 式解析训练步骤和后向逐步式解析训练步骤,以分别生成前向逐步式分类 模型和后向逐步式分类模型。
4.根据权利要求1所述的方法,其中所述拒识得分等于单类支撑向量机 的测试得分减去所述阈值。
5.一种识别自然语言中的命名实体的方法,包括步骤:
使用一个特征窗口,对窗口中心包含的词或字进行局部特征抽取;
基于对自然语言执行逐步式解析模型训练后所得到的分类模型,对自 然语言执行逐步式解析识别,以得到侯选命名实体的位置和类型信息;
使用一个特征窗口,对窗口中心包含的候选命名实体进行全局特征抽 取;
利用拒识器对侯选命名实体进行拒识处理;和
对经过拒识处理的侯选命名实体生成侯选命名实体网络,并执行最优 路径搜索。
6.根据权利要求5所述的方法,其中所述逐步式解析模型训练步骤包括 使用执行前向逐步式解析模型训练得到的前向逐步式分类模型,和执行后 向逐步式解析模型训练得到的后向逐步式分类模型。
7.根据权利要求5所述的方法,其中所述逐步式解析识别步骤包括对读 取的词进行局部特征抽取,并基于这些局部特征进行解析的步骤。
8.根据权利要求7所述的方法,进一步包括特征抽取模块得到表示所述 侯选命名实体的所有特征的多维向量,使用逐步式分类模型对得到的多维 向量进行分类的步骤。
9.根据权利要求5所述的方法,进行拒识处理的步骤包括对候选命名实 体中的字进行全局特征抽取,针对得到的全局特征在单类分类器上使用学 习得到的模型进行拒识处理的步骤。
10.根据权利要求5所述的方法,进行拒识处理的步骤包括,由拒识器 抽出候选命名实体,计算出表示这些候选命名实体的准确性得分,根据算 出的得分,对候选命名实体进行接受或拒绝的处理。
11.根据权利要求5所述的方法,进行拒识处理的步骤使用的是对于不 同类别的命名实体使用不同的训练集而得到的拒识器。
12.根据权利要求5所述的方法,其中所述拒识处理步骤使用单类支撑 向量机测试该侯选命名实体,如果测试得分超过预定的阈值,则接受所述 候选命名实体,否则拒识所述候选命名实体。
13.根据权利要求5所述的方法,其中在所述拒识处理步骤中,如果 前向和后向解析得到了同一个候选命名实体,则使用单类支撑向量机和相 同侯选阈值对该候选命名实体进行评价。
14.根据权利要求5所述的方法,其中在所述拒识处理步骤中,如果一 个单遍解析得到一个候选命名实体,而另一个单遍解析未得到与所述候选 在位置上相交的其它候选命名实体,则使用单类支撑向量机和自由阈值对 候选命名实体进行评价。
15.根据权利要求5所述的方法,其中在所述拒识处理步骤中,如果前 向解析得到一个候选命名实体,后向解析得到另一个候选命名实体,且两 个候选在位置上相交,而且具有相同类型,则根据位置重叠情况至多生成 两个同类型的新候选,使用单类支撑向量机和重叠侯选阈值对至多4个候 选进行评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610079890.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合面粉添加剂及其制备方法
- 下一篇:一种回收甲苯的方法