[发明专利]一种基于深度神经网络与多标记分类的病句检测方法在审

申请号：	201510408379.4	申请日：	2015-07-13
公开（公告）号：	CN105045779A	公开（公告）日：	2015-11-11
发明（设计）人：	王厚峰;张龙凯	申请（专利权）人：	北京大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京万象新悦知识产权代理事务所(普通合伙) 11360	代理人：	贾晓玲
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度神经网络标记分类病句检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明提出了一种基于深度神经网络与多标记分类的病句检测方法，属于文本挖掘和信息检索领域。

背景技术

所谓语病识别，就是判断一个句子是否有语病，如果有，则找出语病。汉语有很多种语病，包括词序不当、搭配不当、成分缺失、成分冗余、结构颠倒、语义不明、不合逻辑等。其中，词序不当是指词语的顺序错误，例如中心词和修饰语之间以及多个修饰与之间顺序的颠倒等。搭配不当包括主谓搭配不当、谓词和宾语搭配不当以及中心词和修饰语搭配不当等。成分的缺失及冗余主要指主语、谓词等的空缺或多余。结构颠倒主要是句子结构的混杂。不合逻辑错误是指自我矛盾、主宾颠倒等错误。

语病会导致句子的词性标注以及依存分析结果异常，使句子的正常分析变得更为困难。现有语病识别工作大多仅针对某一类特定的错误进行识别。若识别句子中的所有类型语病，则需要针对每一种错误训练一种对应的错误识别模型，这样做既繁琐又无法考虑错误之间的关系。在遣词造句时，有时会出现含多类语病的句子，尤其是第二语言学习者。例如一个句子可能既包含把字句错误，同时又缺失了主语。在第二外语学习者的作文中，有相当比例的句子含有多种语病。语病识别是一个复杂的问题，受到很多因素的影响。为了便于分类处理，需要预先定义很多特征。但是，究竟哪些特征真正有用，特别是，哪些特征组合后能产生好的效果，一直是一个大的问题。当然，可以通过手工进行大量的尝试，但不仅耗时而且费力。

发明内容

为了便于说明，先约定下列概念：

句子：这里指待判定是否为病句的句子，通常以句号结束。

语病：句子中包含不符合语法或者语义规范的描述。

本发明的目的是提供一种方法，在没有人工干预的情况下，容易检测出一个给定的句子是否是病句(即包含至少一种语病)。

本发明的技术方案如下：

一种基于深度神经网络与多标记分类的病句检测方法(参图1)，其特征是，包括如下步骤：

步骤一：对于一个输入的句子，表示为一个实例；然后根据词法、句法分析提取特征，将实例转换为特征向量；

步骤二：将步骤一得到的特征向量作为深度神经网络的输入，通过深度神经网络的计算，逐层获得压缩表示；

步骤三：将最后一层神经网络的压缩表示作为多标记分类层的输入，计算得到最终确定的语病类型。

步骤一进一步包括：对实例进行预处理，包括汉语词切分和词性标注以及依存分析。

步骤三进一步包括：计算获得各种语病对应的概率值，设定阈值，若针对某一种语病的概率输出超过该阈值，则认为该句子包含这种错误。

本发明利用从句子中提取特征，将句子变为特征向量；再将特征向量输入到深度神经网络模型中，获得深层次特征表示；最后针对于多标记分类的神经网络输出，获得最终多标记分类结果，从而准确定位到句子中究竟包含哪些错误。实现了将句子的特征表示升级到基于神经网络的隐藏层表示中，通过多标记的方法输出可能的语病，从而完成病句的检测。

本发明针对句子识别其中语病，并且可以做到识别句子中的多种语病，避免了人工选择特征，同时也能提升多种语病的预测的准确度。

附图说明

图1是本发明所述方法流程示意图；

图2是基本的单隐藏层神经网络示意图；

图3是病句分析示例。

具体实施方式

下面通过实例对本发明做进一步的说明，但是需要注意的是，给出实例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510408379.4/2.html，转载请声明来源钻瓜专利网。