[发明专利]处理用于句法分析的特征模板的方法及装置有效
申请号: | 201410643330.2 | 申请日: | 2014-11-07 |
公开(公告)号: | CN104391836B | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 吴文权;吴先超;刘占一 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京金律言科知识产权代理事务所(普通合伙)11461 | 代理人: | 罗延红,杨艳云 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 用于 句法 分析 特征 模板 方法 装置 | ||
1.一种处理用于句法分析的特征模板的方法,其特征在于,所述方法包括:
获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;
从所述第一特征模板的集合提取至少一个基本模板;
分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;
删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板,包括:从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对删除得到的第一特征模板迭代地执行特征模板筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止。
3.根据权利要求2所述的方法,其特征在于,所述删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板,包括:
根据为每个所述基本模板统计的从所述训练语料抽取的第一特征值的数量由少到多的顺序对所述至少一个基本模板进行排序,
从经过排序的所述至少一个基本模板当中,自前向后删除仅抽取出单个第一特征值的基本模板。
4.根据权利要求3所述的方法,其特征在于,所述对删除得到的第一特征模板迭代地执行特征模板筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止的处理包括:
从经过删除得到的基本模板当中选出前X个基本模板,其中,X小于当前所述基本模板的个数,
通过从经过删除得到的各第一特征模板依次删除所述前X个基本模板以及其组合模板中包含的所述基本模板获得第二特征模板的集合,
使用所述第二特征模板通过训练语料进行训练,
通过测试语料对所述第二特征模板进行测试,并计算测试精度,
如果计算得到的测试精度高于或等于所述测试精度阈值,则从所述基本模板当中删除所述前X个基本模板,将所述第二特征模板的集合作为第一特征模板的集合,并且继续下一轮迭代处理,
如果计算得到的测试精度低于所述测试精度阈值,则减少X的值,继续下一轮迭代处理,直到X的值变为0为止。
5.根据权利要求4所述的方法,其特征在于,所述X初始为经过删除仅抽取出单个第一特征值的基本模板后剩余的基本模板的个数的10%,并且所述减少X的值的处理包括:将X减半后向下取整。
6.一种处理用于句法分析的特征模板的装置,其特征在于,所述装置包括:
第一特征模板集合获取单元,用于获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;
基本模板提取单元,用于从所述第一特征模板的集合提取至少一个基本模板;
第一特征值统计单元,用于分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;
第一基本模板删除单元,用于从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
特征模板筛除测试单元,用于对删除得到的第一特征模板迭代地执行特征模板筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
基本模板排序单元,用于根据为每个所述基本模板统计的从所述训练语料抽取的第一特征值的数量由少到多的顺序对所述至少一个基本模板进行排序;
第二基本模板删除单元,用于从经过排序的所述至少一个基本模板当中,自前向后删除仅抽取出单个第一特征值的基本模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410643330.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多媒体内容的提供方法和装置
- 下一篇:确定短文本相似度的方法和装置