[发明专利]基于CRF++汉语句义结构模型自动标注方法无效

专利信息
申请号: 201310074933.0 申请日: 2013-03-08
公开(公告)号: CN103176963A 公开(公告)日: 2013-06-26
发明(设计)人: 罗森林;韩磊;潘丽敏;魏超 申请(专利权)人: 北京理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 crf 汉语 结构 模型 自动 标注 方法
【说明书】:

技术领域

发明涉及一种基于CRF++的汉语句义结构模型自动标注方法,属于计算机科学与自然语言处理的语义分析技术领域。

背景技术

现代语言学理论将语言系统分为语音、语法、语义3个层次,在不考虑语音,并将词法(包括词形、词性)从语法中分离出来的前提下,对不同层次的分析在程度上是不一样的,从词法经过语法到语义的分析,是一个由浅入深的过程。对汉语语义的分析,目前都是通过建立语料资源,使用机器学习方法实现的,常用的语料资源有:

1.宾州大学汉语浅层语义标注库(Chinese Proposition Bank,CPB)

CPB是建立在句法标注语料库CTB(Chinese Tree Bank)基础之上,标注出部分句法成分相对于给定动词所具备的语义角色。

2.山西大学汉语框架语义知识库(Chinese FrameNet,CFN)

CFN是一个以Fillmore的框架语义学为理论基础、以加州大学伯克利分校的FrameNet为参照、以汉语真实语料为依据的汉语框架语义知识库。

3.清华大学句法语义标注库(Syntactically and Semantically Annotated Corpus,SSAC)

SSAC以清华大学的句法树库TCT和句法语义链接库SSL数据为基础,针对目标动词,在句法依存信息基础上形成完整的句法语义信息标注句子。

4.BFS-CTC汉语标注语料库(Beijing Forest Studio Chinese Tagged Corpus,BFS-CTC)

BFS-CTC是以贾颜德的汉语语义学为理论基础,构建汉语句义结构模型为语义分析理论,以新闻语料为原始句子库,包括原始句子库、词法库、句法库和句义库构成的人工标注汉语新闻语料库。

综上,根据语义学的相关理论,研究人员从不同角度构建了语义标注语料库,这些语料库在汉语的自然语言处理研究中起到了重要的作用,但只有BFS-CTC为深入到句义层次、以现代汉语语义学的句义结构理论为基础的句义结构标注语料库。为汉语句义结构分析提供所需的句义结构标注信息,包括句义类型、句义成分以及各成分之间的组合关系等。但是目前还没有方法,能够让计算机对原始句子进行汉语句义结构分析,还没有为语义分析应用提供有效的语言特征提取方法。

发明内容

本发明的目的是:为自然语言处理应用提供语义层次的语言特征,提出一种基于条件随机场(CRF++)的汉语句义结构模型自动标注方法。

本发明的设计原理为:针对汉语句子,分析得到句义结构模型:1.对原始句子首先进行分词,得到句子的分词结果,包括词语词序和词性;2.在得到分词结果的基础上进行谓词识别;3.在以上两步的基础上,进行词关系识别;4.在以上识别结果的基础上,进行语义格类型识别;5根据以上各步骤的识别结果,得到该句子的汉语句义结构模型。

本发明的技术方案是通过如下步骤实现的:

步骤1,为实现谓词识别,词关系识别以及语义格类型识别,需要先对语料进行训练得到相应模型,该模型用于识别。

步骤1.1,进行谓词识别的模型训练,具体方法为:针对CRF++训练数据的格式,首先将汉语标注语料转化为训练数据格式,前几列为分词信息(词性,词语等),最后一列为谓词标签。其次,设置参数f和c使用CRF++对上述数据进行训练,得到谓词识别模型。

上述谓词识别所选特征包括词语词性、词语在句子中词序、词语前一个词的词性、词语后一个词的词性、词语前前两个词的词性、词语后两个词的词性。

所述参数f表示训练模型的阈值,只有当训练语料中出现的特征大于f时,CRF++才会记录该特征到模型中;所述参数c表示训练模型的超参数,c值越大模型与训练语料拟合程度越高,c值越小模型与训练语料拟合度越低,泛化能力越强。

CRF++的训练数据格式具体说明:每个词为一行,每一列是该词的相关信息,具体列数可根据需要选择,最后一行为标签列,用于训练时的标签标识和识别后的结果标识,每个句子之间用空行隔开。

f和c的选取具体说明:使用参数选取方法,对数据进行多次训练,选取识别准确率最高的一组f和c,使用该参数对数据进行训练,得到识别模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310074933.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top