[发明专利]语法改错质量评估方法和系统在审
申请号: | 202110393905.X | 申请日: | 2021-04-13 |
公开(公告)号: | CN113128204A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 孙茂松;刘正皓;矣晓沅 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/253;G06F16/33;G06F16/35;G06N7/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 蒋娟 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语法 改错 质量 评估 方法 系统 | ||
1.一种语法改错质量评估方法,其特征在于,包括:
基于给定输入句子和若干个语法改错结果,采用一个预训练语言模型构建给定输入句子和语法改错结果的词语向量表示;
针对于每个语法改错结果中的词语向量,采用节点交互注意力机制从其他若干个语法改错结果中获取能够验证当前语法改错结果的词语的语法改错线索,并采用节点选择注意力机制将每条语法改错结果词语的语法改错线索进行整合,得到语法改错证据;
利用所述语法改错证据,对当前语法改错结果进行质量评估。
2.根据权利要求1所述的语法改错质量评估方法,其特征在于,所述基于给定输入句子和若干个语法改错结果,采用一个预训练语言模型构建给定输入句子和语法改错结果的词语向量表示包括:
对于给定的一个给定输入句子s,利用一语法改错模型通过柱搜索得到K个相应的语法改错结果,标记为C={c1,...,ck,...,cK};
对于给定的包含m个词语的给定输入句子s以及包含n个词语的第k个语法改错结果ck,将给定输入句子和语法改错结果句子对s,ck利用表示句子开头和结尾的特殊符号“[CLS]”以及“[SEP]”进行拼接,并将拼接后的内容当做一个节点,然后使用BERT进行编码,得到节点初始化表示Hk:
Hk=BERT([CLS]s[SEP]ck[SEP])
所述给定输入句子和语法改错结果句子对s,ck的节点初始化表示Hk包含了每个词语的隐状态表示,并标记为
3.根据权利要求1所述的语法改错质量评估方法,其特征在于,所述针对于每个语法改错结果中的词语向量,采用节点交互注意力机制从其他若干个语法改错结果中获取能够验证当前语法改错结果的词语的语法改错线索,并采用节点选择注意力机制将每条语法改错结果词语的语法改错线索进行整合,得到语法改错证据具体包括:
基于所述s,ck,利用节点交互注意力机制通过计算注意力权重αl→k有选择地从第l个节点中读取词语,从其中选择出能够对第k个节点中的词语起到支持作用的语法改错线索,形成节点的细粒度表示Vl→k;
采用节点选择注意力机制,基于节点的细粒度表示Vl→k计算节点的重要程度,从多个节点中整合能够支持验证当前词语质量的语法改错证据。
4.根据权利要求3所述的语法改错质量评估方法,其特征在于,所述从其中选择出能够对第k个节点中的词语起到支持作用的语法改错线索,形成节点的细粒度表示Vl→k包括:
对于第k个节点中的第p个词语依据词语和第l个节点中的第q个词语的词语表示之间的相关性分数以此计算出节点交互注意力机制的权重
其中,W是一个可训练参数,和分别为两个词语和的向量化表示;
利用节点交互注意力权重对第l个节点中所有的词语表示进行加权求和,从而得到对于第k个节点中的第p个词语来说,第l个节点的细粒度节点表示
基于得到面向第k个节点的第l个节点的细粒度节点表示
5.根据权利要求4所述的语法改错质量评估方法,其特征在于,所述采用节点选择注意力机制,基于节点的细粒度表示Vl→k计算节点的重要程度,从多个节点中整合能够支持验证当前词语质量的语法改错证据具体包括:
对节点中的给定输入句子s和语法改错结果cl中的词语分别进行加权表示,计算出对于第l个节点的选择注意力权重γl;
利用所得到的节点的选择注意力权重γl对第l个节点的细粒度节点表示Vl→k进行加权求和,得到面向第k个节点的节点验证表示以及语法改错线索;
对于第l个节点的节点选择注意力权重γl,并对语法改错线索进行加权整合,得到能够支持验证当前词语质量的语法改错证据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110393905.X/1.html,转载请声明来源钻瓜专利网。