[发明专利]一种非标准词类判别方法及计算机可读存储介质在审
申请号: | 202111567719.X | 申请日: | 2021-12-21 |
公开(公告)号: | CN114444492A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 吴志勇;戴文琳;宋长河 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/242;G06F40/166;G06N3/02 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 孟学英 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 非标准 词类 判别 方法 计算机 可读 存储 介质 | ||
本发明提供一种非标准词类判别方法及计算机可读存储介质,方法包括:输入的包含非标准词的完整中文句子的字符序列并与非标准词的匹配规则以及中文词典进行匹配得到所有可能的候选的非标准词和潜在的中文词语;将上述内容组织成一个序列,获取字符序列中每个字符的字符嵌入;获取每个潜在的中文词语和每个候选的非标准词的词嵌入;从字符序列中每个字符、潜在的中文词语和候选的非标准词的头和尾位置得到的相对位置编码,基于字符嵌入、词嵌入及相对位置编码获取包括字符序列中的每个字符、每个潜在的中文词语和候选的非标准词构成的序列的上下文特征表示;基于上下文特征表示预测每一个候选的非标准词的类别;提高非标准词分类的效率和准确率。
技术领域
本发明涉及非标准次预测技术领域,尤其涉及一种非标准词类判别方法及计算机可读存储介质。
背景技术
最早的非标准词的预测方法都是基于手工规则的,先由语言学家总结一系列的规则进行非标准词的消歧,然后再把这些规则写成计算机能理解的形式。简单规则方法,主要用于处理那些容易消歧或语料稀少或语料存在类间严重不均衡的非标准词。然而,由于每种可能的非标准词的判别都需要单独总结规则,建立规则工作量巨大而且很难涵盖所有的情况。即基于规则的非标准词类别预测方法,手动设计规则的工作太繁琐,而且规则拓展性较差并且没有考虑到上下文信息,导致效果较差。另外,当设计新的规则时,容易和以前的规则产生冲突。
由于神经网络可以从原始数据中提取高层次的特征以及深度学习在语音识别、机器翻译、计算机视觉等许多领域都带来了突破,越来越多的研究人员尝试使用神经网络的序列到序列的模型直接处理文本正则化问题。序列到序列模型通常将书面形式的文本表示编码为一个状态向量,并将其解码为一个口语形式的文本输出序列。然而,将序列到序列的模型直接应用于非标准词的转换中,可能会导致由模型或数据偏差导致的意外的和不可解释的错误。
现有技术中还有一种混合系统,混合系统只是将基于规则的模型和神经网络模型连续地视为级联子模块,基于兜底策略使用规则方法来纠正神经网络模型的错误,但这种混合系统并没有解决规则和神经网络各自的问题,并且可能会导致错误积累;基于规则的模型和神经网络模型可以相互补充,但这两个级联子模块的交互能力有限,使得神经网络模型不能充分利用规则中所包含的专家知识。
现有技术中缺乏一种非标准词类判别方法及计算机可读存储介质。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有的问题,提供一种非标准词类判别方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
一种非标准词类判别方法,包括如下步骤:S1:输入的包含非标准词的完整中文句子的字符序列并将所述中文句子与非标准词的匹配规则以及中文词典进行匹配得到所有可能的候选的非标准词和潜在的中文词语;S2:将所述中文句子的字符序列、潜在的的所述中文词语以及所有可能的候选非标准词组织成一个序列,获取所述字符序列中每个字符的字符嵌入;获取每个潜在的所述中文词语和每个候选的所述非标准词的词嵌入;S3:从所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词的头和尾位置得到的相对位置编码,基于所述字符嵌入、所述词嵌入以及所述相对位置编码获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示;S4:基于所述上下文特征表示预测每一个候选的所述非标准词的类别。
优选地,得到候选的所述非标准词和潜在的所述中文词语包括:从前往后扫描所述中文句子的字符序列,在正则表达式集合中匹配到非标准词则返回其起止位置,在中文词典中匹配到一个中文词语也返回其起止位置;匹配时基于贪婪算法匹配出所有可能的潜在的所述中文词语和候选的所述非标准词,并返回其相应的起止位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111567719.X/2.html,转载请声明来源钻瓜专利网。