[发明专利]一种基于序列标注的把字句和被字句陈述化方法及系统有效
申请号: | 202110253306.8 | 申请日: | 2021-03-05 |
公开(公告)号: | CN112966477B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 王功明;张娴;周庆勇 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/205;G06F40/129;G06F40/216;G06F16/35;G06N3/0442;G06N3/084;G06N3/0985 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 冯春连;姜鹏 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 标注 字句 陈述 方法 系统 | ||
本发明公开一种基于序列标注的把字句和被字句陈述化方法,涉及自然语言处理技术领域,其实现过程包括:采用BIES方法,对把字句和被字句中的每个单字进行序列标注;以把字句或被字句作为输入,以序列标注结果作为输出,训练基于端到端的序列标注模型;使用训练得到的序列标注模型对把字句或被字句进行序列标注;根据序列标注模型的标注结果提取把字句或被字句的构成要素;按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。本发明还公开一种基于序列标注的把字句和被字句陈述化系统,其与前述方案相结合,可以解决自然语言处理领域方法处理把字句和被字句时存在的效率低、准确性差等问题。
技术领域
本发明涉及自然语言处理技术领域,具体的说是一种基于序列标注的把字句和被字句陈述化方法及系统。
背景技术
把字句是汉语中的主动式动词谓语句,用来强调行为结果或行为方式。这种句式又称为“处置式”,因为动词所表示的动作对宾语进行了“处置”,使其属性(例如位置或状态)发生改变。这种句式的基本结构是:施事者+把+受事者+动作+其他,例如:奔流不息的洪水把人们回家的路淹没了。
被字句是指在核心动词前面,用介词“被(给、叫、让)”引出施事或单用“被”表示被动的主谓句。这种句式的基本结构是:受事者+被+施事者+动作+其他,例如:人们回家的路被奔流不息的洪水淹没了。
在现代汉语中,把字句和被字句是常用的特殊句式,是语言学的研究重点,也是自然语言处理的语料来源。但是,自然语言处理领域的方法没有考虑把字句和被字句的结构特点,这就使得训练出来的模型主要适用于陈述句,处理把字句和被字句时存在效率低、精度差等问题。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种基于序列标注的把字句和被字句陈述化方法及系统,来提高把字句和被字句的处理效果。
首先,本发明公开一种基于序列标注的把字句和被字句陈述化方法,来解决上述技术问题,所采用的技术方案如下:
一种基于序列标注的把字句和被字句陈述化方法,包括如下步骤:
S1、采用BIES方法,对把字句和被字句中的每个单字进行序列标注;
S2、标注完成后,以把字句或被字句作为输入,以序列标注结果作为输出,训练基于端到端的序列标注模型;
S3、使用训练得到的序列标注模型对把字句或被字句进行序列标注;
S4、根据序列标注模型的标注结果提取把字句或被字句的构成要素;
S5、按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。
可选的,把字句或被字句的构成要素采用下述符号表示:
施事者:Sub;
受事者:Obj;
把字句标记介词“把”:Vba;
被字句标记介词“被/给/叫/让”:Vbei;
动作:Verb;
其它:Oth;
每个构成要素由一个或多个单字组成,借助BIES方法对每个单字进行序列标注,其中,B表示构成要素开始,I表示构成要素中间,E表示构成要素结束,S表示由单字形成的构成要素;
将上述4种标记添加到构成要素符号的前面,即形成单字的标签。
可选的,基于端到端的序列标注模型包括:
序列单字层,用于将把字句和被字句中的单字,按照单字出现的先后顺序,转换为单字构成的序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110253306.8/2.html,转载请声明来源钻瓜专利网。