[发明专利]中文字符和拼音相结合的词向量表示方法、装置、介质在审
申请号: | 202011356716.7 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112464655A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 姚金良;胡创;王荣波;谌志群;黄孝喜 | 申请(专利权)人: | 绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 312399 浙江省绍兴市上虞区曹娥*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 字符 拼音 相结合 向量 表示 方法 装置 介质 | ||
本发明公开了一种中文字符和拼音相结合的词向量表示方法、装置、介质。该方法包括步骤:S11:将待转换为词向量表示的中文文本中每个中文字符转化为拼音;S12:针对中文文本中每个中文字符,利用预训练的中文字符词嵌入模型,得到中文字符的词向量表示;S13:针对中文文本中每个中文字符的拼音,利用预训练的拼词嵌入模型,得到拼音的词向量表示;S14:针对中文文本中每个中文字符,融合两种词向量表示得到字符融合表示向量。本发明通过中文字符和拼音相合的方法,在可区分同音字的基础上,建立了同音字之间的关系信息,从而能够很好地处理同音字噪声。本发明可以用于但不限于不良信息的过滤。
技术领域
本发明属于计算机自然语言处理领域,公开了一种中文字符和拼音相结合的词向量表示方法。
背景技术
互联网的迅速发展,信息共享的时效和传递性得到了很大的提升,用户可以更加高效、便捷地获取到所需要的信息。在互联网中,信息呈现的方式多种多样,其中文本是最常见的。用户不仅可以通过文本获取信息,自身也可作为发布者来发布文本,这就使得互联网中存在着海量的信息。然而科技往往是把双刃剑。海量文本信息便利用户的同时,其中也存在着不好的一面。由于文本信息的发布比较自由,大量的不良信息诸如色情、暴力、赌博、广告等不良信息充斥其中,极大地影响着用户的上网体验。故而,不良信息过滤是十分必要的。
在不良信息过滤所面临的问题中,如何去除噪声的影响对模型的最终效果有着很大的影响。温园旭在其《变体短文本过滤算法研究》中提出通过预处理过程来消除噪声的影响,取得了不错的效果。但是由于中文同音字的噪声的特殊性,即在分类前无法判断同音字是否为噪声,如:“微信”,“维信”、“薇新”……是其同音字噪声,“威信”则是可能是正常表达。还有像“或”、“活”、“火”、“货”……这些同音字都是中文中的常用字,不应当做同音字噪声处理。故该预处理过程无法消除同音字的影响。
不良信息过滤是典型的文本分类问题。文本分类是在预定义的分类体系下,根据文本的特征(内容或属性),将给定文本与一个或多个类别相关联的过程。因此,文本分类研究涉及文本内容理解和模式分类等若干自然语言理解和模式识别问题。文本分类任务的最终目的是要找到一个有效的映射函数,准确地实现域D×C到值T或F的映射,这个映射函数实际上就是我们通常所说的分类器。因此,文本分类中有两个关键问题:一个是文本的表示,另一个就是分类器设计。目前最为常用的词向量化方法,通过简单的神经网络训练使特征词得向量表示由其上下文相关的词表示,使得最终的词向量能够考虑到相邻词与词之间的关系。由于同音字有音相同的关系,在文本中的位置并无关系,所以这种向量化方法无法考虑到同音字间的联系。
基于实际应用的需求和现有向量化方法无法考虑到同音字之间的关系,本发明方法提出一种中文字符和拼音相结合的词向量表示方法。
发明内容
本发明针对实际应用中的对同音字噪声过滤的需求以及现有技术不能很好解决同音字噪声的现状,提出一种中文字符和拼音相结合的词向量表示方法。本发明方法通过在文本的表示即文本向量化阶段融合了中文字符和拼音,由此得到包含同音字信息的词向量。在后续模型的处理过程中便可根据同音字信息来识别同音字,从而降低同音字噪声的影响。
为了实现上述发明目的,本发明具体采取如下技术方案:
第一方面,本发明提供了一种中文字符和拼音相结合的词向量表示方法,其步骤如下:
S11:使用拼音转换工具将待转换为词向量表示的中文文本中每个中文字符转化为拼音;
S12:针对中文文本中每个中文字符,利用预训练的中文字符词嵌入模型,得到中文字符的词向量表示x1;
S13:针对中文文本中每个中文字符的拼音,利用预训练的拼音词嵌入模型,得到拼音的词向量表示x2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学,未经绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011356716.7/2.html,转载请声明来源钻瓜专利网。