[发明专利]一种具有多种子模块信息的中文词向量生成方法有效
申请号: | 201911172979.X | 申请日: | 2019-11-26 |
公开(公告)号: | CN111160020B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 朱鹏;程大伟;杨芳洲;罗轶凤;钱卫宁;周傲英 | 申请(专利权)人: | 华东师范大学;上海瞰点科技有限责任公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/211;G06N3/0464;G06N3/08 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 具有 多种 模块 信息 文词 向量 生成 方法 | ||
1.一种具有多种子模块信息的中文词向量生成方法,其特征在于按下述步骤进行中文词向量的生成:
步骤1,背景和定义阶段:对词向量的背景以及在训练词向量的一些基本定义;
步骤2,模型定义阶段:采用包括:上下文单词、字符、部首、组件、字形和拼音子模块的ICWE模型,通过这些子模块的组合,基于注意力机制以学习改进的中文单词嵌入信息,所述每一子模块的信息中都隐含了一个中文单词的语义;所述ICWE模型为输入层、投影层、注意层和输出层构成的前馈神经网络;
步骤3,实验阶段:用于评估模型的基本实验设置,包括训练语料库、参数设置、基准模型以及评估任务和数据集,所述实验阶段的具体步骤如下:
a、 语料库的训练
使用Gensim工具包将下载的压缩文件转换为文本格式,然后通过OpenCC工具包将所有字符标准化为简体中文字符,保留Unicode值介于0x4E00和0x9FA5之间的汉字,丢弃其他字符后使用Jieba工具包将文本分割成单词为训练语料库;
b、子模块的来源
从训练语料库中,从单词的上下文中获取中文单词的单词和字符子模块,然后使用JWE模型的组件字典和部首字典来获取单词的字符形成子模块,在获得语料库中包含的所有目标词的子模块之后,训练模型以相应地生成最终单词嵌入和子模块嵌入;所述字形子模块使用GWE模型训练有素的字形,并调整权重后将字符的字形嵌入合并到通过模型训练进行单词嵌入,对于拼音子模块使用python包pypinyin中包含的拼音字典,通过调用pypinyin接口来获取字符的拼音子模块;
c、参数的设定
设定用于模型训练的实验参数,其中参考了各子模块的词汇量和嵌入量纲大小、训练批次大小、关注层大小、目标函数优化和学习率,所述模型训练包含在语料库中的音译词的嵌入;
d、基准模型的选择
采用 CBOW模型、CWE模型、SCWE模型、JWE模型和cw2vec模型为基准模型对ICWE模型进行评估,所述CBOW模型是从Word2vec模型中选择;所述CWE模型将字符级信息组合到中文单词嵌入中;所述SCWE模型将从其他语言中提取的语义信息组合到中文单词嵌入中;所述JWE模型从组件和部首中提取语义信息以改善中文单词嵌入;所述cw2vec模型使用笔划级别的信息改善中文单词嵌入;
e、任务和数据集的评估
通过基准化词嵌入的准确性,对ICWE模型的词相似性任务和词类比任务上的性能进行评估,其词相似性任务上的性能评估为单词嵌入反映两个单词之间的语义接近度和相关性能力的评估,并以单词对的相似度得分计算为Spearman等级相关系数;所述词相似性任务选择wordsim-240和wordsim-294数据集进行词相似性评估;所述wordsim-240数据集中的所有单词都包含在训练语料库中;所述wordsim-294由标准wordsim-296数据集中删除了两个不包含在训练语料库中的单词得到;所述词类比任务采用1124个测试实例的中文单词类比数据集检查词嵌入推断不同词对之间语义关系的能力;所述测试实例中的所有单词都包含在训练语料库中;所述每个测试实例包含从三个类比类别中之一选择的两对单词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;上海瞰点科技有限责任公司,未经华东师范大学;上海瞰点科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911172979.X/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置