[发明专利]一种基于深度神经网络与多标记分类的病句检测方法在审
申请号: | 201510408379.4 | 申请日: | 2015-07-13 |
公开(公告)号: | CN105045779A | 公开(公告)日: | 2015-11-11 |
发明(设计)人: | 王厚峰;张龙凯 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 贾晓玲 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 标记 分类 病句 检测 方法 | ||
技术领域
本发明提出了一种基于深度神经网络与多标记分类的病句检测方法,属于文本挖掘和信息检索领域。
背景技术
所谓语病识别,就是判断一个句子是否有语病,如果有,则找出语病。汉语有很多种语病,包括词序不当、搭配不当、成分缺失、成分冗余、结构颠倒、语义不明、不合逻辑等。其中,词序不当是指词语的顺序错误,例如中心词和修饰语之间以及多个修饰与之间顺序的颠倒等。搭配不当包括主谓搭配不当、谓词和宾语搭配不当以及中心词和修饰语搭配不当等。成分的缺失及冗余主要指主语、谓词等的空缺或多余。结构颠倒主要是句子结构的混杂。不合逻辑错误是指自我矛盾、主宾颠倒等错误。
语病会导致句子的词性标注以及依存分析结果异常,使句子的正常分析变得更为困难。现有语病识别工作大多仅针对某一类特定的错误进行识别。若识别句子中的所有类型语病,则需要针对每一种错误训练一种对应的错误识别模型,这样做既繁琐又无法考虑错误之间的关系。在遣词造句时,有时会出现含多类语病的句子,尤其是第二语言学习者。例如一个句子可能既包含把字句错误,同时又缺失了主语。在第二外语学习者的作文中,有相当比例的句子含有多种语病。语病识别是一个复杂的问题,受到很多因素的影响。为了便于分类处理,需要预先定义很多特征。但是,究竟哪些特征真正有用,特别是,哪些特征组合后能产生好的效果,一直是一个大的问题。当然,可以通过手工进行大量的尝试,但不仅耗时而且费力。
发明内容
为了便于说明,先约定下列概念:
句子:这里指待判定是否为病句的句子,通常以句号结束。
语病:句子中包含不符合语法或者语义规范的描述。
本发明的目的是提供一种方法,在没有人工干预的情况下,容易检测出一个给定的句子是否是病句(即包含至少一种语病)。
本发明的技术方案如下:
一种基于深度神经网络与多标记分类的病句检测方法(参图1),其特征是,包括如下步骤:
步骤一:对于一个输入的句子,表示为一个实例;然后根据词法、句法分析提取特征,将实例转换为特征向量;
步骤二:将步骤一得到的特征向量作为深度神经网络的输入,通过深度神经网络的计算,逐层获得压缩表示;
步骤三:将最后一层神经网络的压缩表示作为多标记分类层的输入,计算得到最终确定的语病类型。
步骤一进一步包括:对实例进行预处理,包括汉语词切分和词性标注以及依存分析。
步骤三进一步包括:计算获得各种语病对应的概率值,设定阈值,若针对某一种语病的概率输出超过该阈值,则认为该句子包含这种错误。
本发明利用从句子中提取特征,将句子变为特征向量;再将特征向量输入到深度神经网络模型中,获得深层次特征表示;最后针对于多标记分类的神经网络输出,获得最终多标记分类结果,从而准确定位到句子中究竟包含哪些错误。实现了将句子的特征表示升级到基于神经网络的隐藏层表示中,通过多标记的方法输出可能的语病,从而完成病句的检测。
本发明针对句子识别其中语病,并且可以做到识别句子中的多种语病,避免了人工选择特征,同时也能提升多种语病的预测的准确度。
附图说明
图1是本发明所述方法流程示意图;
图2是基本的单隐藏层神经网络示意图;
图3是病句分析示例。
具体实施方式
下面通过实例对本发明做进一步的说明,但是需要注意的是,给出实例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510408379.4/2.html,转载请声明来源钻瓜专利网。