[发明专利]基于视觉的表意文字嵌入式向量生成方法在审
申请号: | 201910717710.9 | 申请日: | 2019-08-05 |
公开(公告)号: | CN110442680A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 刘斌 | 申请(专利权)人: | 西南财经大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F17/27 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 钟玉巧 |
地址: | 610072 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表意文字 文本内容 向量生成 嵌入式 掩码 视觉 自然语言处理 计算机处理 背景图片 编码向量 单个字符 黑色背景 灰度矩阵 灰度图片 图片叠加 单通道 图片 合成 | ||
本发明公开了一种基于视觉的表意文字嵌入式向量生成方法,该方法包括将文本内容按照识别单位生成对应的掩码图片,生成与掩码图片对应的黑色背景图片,将掩码图片叠加于背景图片上合成基于文本内容的单通道灰度图片,提取单个字符对应的灰度矩阵作为对应字符的编码向量。本发明提出的基于视觉的表意文字嵌入式向量生成方法能够简化自然语言处理流程,显著提高计算机处理文本内容的效率。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于视觉的表意文字嵌入式向量生成方法。
背景技术
在自然语言处理(Nature Language Processing)领域,为了能让计算机理解词语或者字符的含义,通常需要对词或者字符进行编码,即,将词或者字符统一转成与之对应的实数向量,每一个词或者字符一一对应一个实数向量。对词或者字符经过编码后,自然语言处理算法可以直接处理向量来达到理解词语或者字符的目的。词向量目前被大量运用到文本分类,文本情感分析,机器阅读,机器翻译等领域。
当前最为普遍的两种词向量编码方式分别是基于字典或者字符库的独热 (one-hot)编码和基于分布式词向量模型的word2vec方法(比如skip-gram, CBOW,GLOVE等)。
独热编码是根据词典长度,为每一个词构造一个与之对应的、唯一的高维二值向量,这个二值向量只有一个向量分量等于1,其余的分量皆为0。假设统计语料库中出现的词的个数为10000(通常要剔除低频词),则字典长度为 10000,而字典中第一个词的词向量等于(1,0,0,…,0),第二个词的词向量为 (0,1,0,…,0),第i个词的词向量为(0,…0,1,0,…,0),即第i个分量为1,其余分量都为0。
分布式的词向量是用一个低维度的连续实数向量来表达字典里出现的词。分布式词向量的一个重要思想是word2vec,即先为每一个词随机初始化一个 100维度的随机向量,然后根据词在语料库的句子中出现的相对位置关系来不断地更新词向量,最后得到每一个词的词向量的分布式唯一表达。这种方法的好处是,词向量之间的距离关系可以近似地反应词之间的语义关系。
这些方法运用到英文文本等表音语言的文本分析任务中时,是较为方便的。但是在基于中文等表意文字的文本分析任务中,以上方法具有很大的局限性。下面以中文为例子,具体介绍当前已有词向量方案的不足。
首先,如果利用传统的词向量生成方案来对中文进行编码,无论是独热编码还是分布式编码,都需要对进行语料库进行清洗。语料库清洗包括剔除低频率词,去掉非汉字字符(包括标点符号以及其他语言的文字和字符)等;
其次,中文的最小语素单位是字,因此无论是独热编码的词向量还是分布式词向量,都需要对语料库进行中文分词处理。中文分词是将连续的字序列按照一定的规范重新组合成汉语词语序列。也就是传统词向量需要独立的分词算法对语料库进行预先处理。
第三,在进行完语料库清洗和分词后,无论是独热编码还是分布式编码接下来都还需要维护一个字典。对于独热编码,词向量的长度跟字典的长度一致,因此合理选取字典长度只一个比较麻烦的问题,维度过高,虽然可以保留语料库中更多的词,但是却增加了词向量的长度。相反,如果降低维度,则势必将减少字典中维护的词的数量。而分布式编码,虽然其对应的词向量维度相较独热编码方案而言,其词向量维度低,但是得到的词向量质量存在严重依赖语料库质量的问题。
发明内容
本发明的主要目的在于提供一种基于视觉的表意文字嵌入式向量生成方法,旨在解决既有方法中存在的以上技术问题。
为实现上述目的,本发明提供一种基于视觉的表意文字嵌入式向量生成方法,包括以下步骤:
S1、将文本内容按照设定的识别单位进行划分,对各个识别单位依次生成对应的掩码图片;
S2、生成不小于步骤S1中掩码图片尺寸的黑色背景图片;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南财经大学,未经西南财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910717710.9/2.html,转载请声明来源钻瓜专利网。