[发明专利]一种基于深度神经网络与多标记分类的病句检测方法在审

专利信息
申请号: 201510408379.4 申请日: 2015-07-13
公开(公告)号: CN105045779A 公开(公告)日: 2015-11-11
发明(设计)人: 王厚峰;张龙凯 申请(专利权)人: 北京大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京万象新悦知识产权代理事务所(普通合伙) 11360 代理人: 贾晓玲
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 神经网络 标记 分类 病句 检测 方法
【说明书】:

技术领域

发明提出了一种基于深度神经网络与多标记分类的病句检测方法,属于文本挖掘和信息检索领域。

背景技术

所谓语病识别,就是判断一个句子是否有语病,如果有,则找出语病。汉语有很多种语病,包括词序不当、搭配不当、成分缺失、成分冗余、结构颠倒、语义不明、不合逻辑等。其中,词序不当是指词语的顺序错误,例如中心词和修饰语之间以及多个修饰与之间顺序的颠倒等。搭配不当包括主谓搭配不当、谓词和宾语搭配不当以及中心词和修饰语搭配不当等。成分的缺失及冗余主要指主语、谓词等的空缺或多余。结构颠倒主要是句子结构的混杂。不合逻辑错误是指自我矛盾、主宾颠倒等错误。

语病会导致句子的词性标注以及依存分析结果异常,使句子的正常分析变得更为困难。现有语病识别工作大多仅针对某一类特定的错误进行识别。若识别句子中的所有类型语病,则需要针对每一种错误训练一种对应的错误识别模型,这样做既繁琐又无法考虑错误之间的关系。在遣词造句时,有时会出现含多类语病的句子,尤其是第二语言学习者。例如一个句子可能既包含把字句错误,同时又缺失了主语。在第二外语学习者的作文中,有相当比例的句子含有多种语病。语病识别是一个复杂的问题,受到很多因素的影响。为了便于分类处理,需要预先定义很多特征。但是,究竟哪些特征真正有用,特别是,哪些特征组合后能产生好的效果,一直是一个大的问题。当然,可以通过手工进行大量的尝试,但不仅耗时而且费力。

发明内容

为了便于说明,先约定下列概念:

句子:这里指待判定是否为病句的句子,通常以句号结束。

语病:句子中包含不符合语法或者语义规范的描述。

本发明的目的是提供一种方法,在没有人工干预的情况下,容易检测出一个给定的句子是否是病句(即包含至少一种语病)。

本发明的技术方案如下:

一种基于深度神经网络与多标记分类的病句检测方法(参图1),其特征是,包括如下步骤:

步骤一:对于一个输入的句子,表示为一个实例;然后根据词法、句法分析提取特征,将实例转换为特征向量;

步骤二:将步骤一得到的特征向量作为深度神经网络的输入,通过深度神经网络的计算,逐层获得压缩表示;

步骤三:将最后一层神经网络的压缩表示作为多标记分类层的输入,计算得到最终确定的语病类型。

步骤一进一步包括:对实例进行预处理,包括汉语词切分和词性标注以及依存分析。

步骤三进一步包括:计算获得各种语病对应的概率值,设定阈值,若针对某一种语病的概率输出超过该阈值,则认为该句子包含这种错误。

本发明利用从句子中提取特征,将句子变为特征向量;再将特征向量输入到深度神经网络模型中,获得深层次特征表示;最后针对于多标记分类的神经网络输出,获得最终多标记分类结果,从而准确定位到句子中究竟包含哪些错误。实现了将句子的特征表示升级到基于神经网络的隐藏层表示中,通过多标记的方法输出可能的语病,从而完成病句的检测。

本发明针对句子识别其中语病,并且可以做到识别句子中的多种语病,避免了人工选择特征,同时也能提升多种语病的预测的准确度。

附图说明

图1是本发明所述方法流程示意图;

图2是基本的单隐藏层神经网络示意图;

图3是病句分析示例。

具体实施方式

下面通过实例对本发明做进一步的说明,但是需要注意的是,给出实例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510408379.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top