[发明专利]基于CRF++汉语句义结构模型自动标注方法无效

专利信息
申请号: 201310074933.0 申请日: 2013-03-08
公开(公告)号: CN103176963A 公开(公告)日: 2013-06-26
发明(设计)人: 罗森林;韩磊;潘丽敏;魏超 申请(专利权)人: 北京理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 crf 汉语 结构 模型 自动 标注 方法
【权利要求书】:

1.基于CRF++的汉语句义结构模型自动标注方法,所述方法包括以下步骤:

步骤1,使用CRF++进行训练,得到相应模型,用于实现谓词识别,词关系识别以及语义格类型识别。

步骤1.1,进行谓词识别的模型训练,具体方法为:针对CRF++训练数据的格式,首先将汉语标注语料转化为CRF++训练数据格式,前几列为分词信息(词性,词语等),最后一列为谓词标签。其次,设置参数f和c使用CRF++对上述数据进行训练,得到谓词识别模型。

CRF++的训练数据格式具体说明:每个词为一行,每一列是该词的相关信息,具体列数可根据需要选择,最后一行为标签列,用于训练时的标签标识和识别后的结果标识,每个句子之间用空行隔开。

f和c的选取具体说明:使用参数选取方法,对数据进行多次训练,选取识别效果最优的一组f和c,使用该参数对数据进行训练,得到识别模型。

步骤1.2,进行词关系识别的模型训练,具体方法为:针对CRF++训练数据的格式,首先将汉语标注语料转化为CRF++训练数据格式,前几列为分词信息(词性,词语等)、谓词信息等,最后一列为词关系标签。其次,使用步骤1.1中同样方法选择参数f和c,使用CRF++对上述数据进行训练,得到词关系识别模型。

步骤1.3,进行语义格类型识别的模型训练,具体方法为:针对CRF++训练数据的格式,首先将汉语标注语料转化为CRF++训练数据格式,前几列为分词信息(词性,词语等)、谓词信息等,最后一列为语义格类型标签。其次,使用步骤1.1中同样方法选择参数f和c,使用CRF++对上述数据进行训练,得到语义格类型识别模型。

步骤2,在步骤1得到相应识别模型的基础上,从原始句子到句义结构模型需要经过五个步骤。

步骤2.1,对未经任何处理的汉语句子进行分词,得到分词后结果,并将结果转化为CRF++识别数据格式。

CRF++的识别数据格式具体说明:每个词为一行,每一列是输入数据信息,具体列数可根据需要选择,每个句子之间用空行隔开。

步骤2.2,以步骤1.1中的谓词识别模型和步骤2.1数据格式的分词结果为输入,使用CRF++进行识别,得到谓词识别结果,即得到句子中的谓词。

步骤2.3,以步骤2.1、步骤2.2的识别结果和步骤1.2中的词关系识别模型为输入,使用CRF++进行识别,得到词关系识别结果。

步骤2.3中的词关系定义为:一个句子中只有一个谓词为主谓词,该谓词不存在关系词;除去不表达语义的词和主谓词,其他所有词之间都有关系;每个词B都有唯一一个词A与其有关系,即关系为B指向A,可同时有一个或多个词指向A。

步骤2.4,以步骤2.2、步骤2.3的识别结果和步骤1.3的语义格类型识别模型为输入,使用CRF++进行识别,得到语义格类型识别结果。

步骤3,根据步骤2的识别结果,按照规则得到该句的句义结构模型。

2.根据权利1所述的基于CRF++的汉语句义结构模型自动标注方法,其特征在于:步骤1.1中,谓词识别所选特征包括词语词性、词语在句子中词序、词语前一个词的词性、词语后一个词的词性、词语前前两个词的词性、词语后两个词的词性。

3.根据权利1所述的基于CRF++的汉语句义结构模型自动标注方法,其特征在于:步骤1.2中,词间关系识别所选特征包括词语及词性、前几个词的词性、后几个词的词性、词语是否为谓词。

4.根据权利1所述的基于CRF++的汉语句义结构模型自动标注方法,其特征在于:步骤1.3中,语义格类型识别所选特征包括词语及词性、前几个词的词性、后几个词的词性、词语是否为谓词、前几个词语是否有谓词、后几个词语是否有谓词、词间关系。

5.根据权利1所述的基于CRF++的汉语句义结构模型自动标注方法,其特征在于:步骤2.3中,使用CRF++数据格式的句子谓词结果和分词结果为输入,输出句子中词关系。

6.根据权利1所述的基于CRF++的汉语句义结构模型自动标注方法,其特征在于:步骤2.4中,使用CRF++数据格式的句子谓词结果和词关系结果为输入,输出句子中语义格类型。

7.根据权利1所述的基于CRF++的汉语句义结构模型自动标注方法,其特征在于:步骤3中,以句子分词结果、谓词识别结果、词关系识别结果和语义格类型识别结果为输入,使用规则方法得到汉语句义结构模型的转换方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310074933.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top