[发明专利]基于笔画和字形的形态学双通道中文词嵌入方法有效
申请号: | 201910881062.0 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110610006B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 陈恩红;刘淇;徐童;童世炜;陶汉卿 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/36 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 笔画 字形 形态学 双通道 文词 嵌入 方法 | ||
1.一种基于笔画和字形的形态学双通道中文词嵌入方法,其特征在于,包括:
获取中文文本,并通过预处理得到相应的词序列;
将词序列中的每个单词拆分为若干个汉字,再根据汉字的笔顺信息与字形图片信息,针对字级形态学特征、字级特征与词级特征的提取过程进行建模,从而获得适用于汉语自身特点的词嵌入表达;
所述字级形态学特征包括:一维序列通道的笔顺特征和二维空间通道的字形特征;
所述字级形态学特征中一维序列通道的笔顺特征的提取方式包括:对于汉字c,根据汉字的笔顺信息,确定汉字c的笔顺,得到相应的笔画序列;设定一个大小为n的滑动窗口来提取笔顺的子词组合;向汉字c的笔画序列的头、尾分别添加边界符号、,得到新的笔画序列;从前往后,以n个笔画为一组,顺序拆解出多个笔画组合,同时将添加边界符的笔顺作为一个特殊子词;最终汉字c所包含的子词组合记为G(c);
所述字级形态学特征中二维空间通道的字形特征的提取方式包括:对于汉字c,根据字形图片信息,得到相应的字形图片Ic,使用CNN网络提取字形特征:
所述字级特征,通过融合字级形态学特征中的一维序列通道的笔顺特征和二维空间通道的字形特征得到;对于汉字c,一维序列通道的笔顺特征为子词组合G(c),每个元素包含一个子词特征向量二维空间通道的字形特征为CNN(Ic);使用成分组合的操作,得到汉字的字级特征表征
其中,*为成分组合操作符;
所述词级特征为通过融合字级特征得到:将每个单词中的汉字进行累加求和,得到词级特征中的字级特征表示再和词级表征做成分组合,得到词级特征即:
其中,Nc为每个单词含的汉字数量,表示向量加法;
利用预先爬取的指定数量的中文文本语料数据集D,对模型进行优化和训练;
对于单词w,根据分布P,抽取大小为λ的负样本集合T(w),使用最大似然估计优化最终的优化目标:
其中,s(w,e)表示跳字模型中的相似度函数,其中的w为中心词,e为中心词w的窗口背景词,T(w)是中心词w的上下文窗口词集合,λ是每个中心词w的负样本数量,e′是负采样得到的负样本噪声词,是期望函数项,σ为sigmoid函数。
2.根据权利要求1所述的一种基于笔画和字形的形态学双通道中文词嵌入方法,其特征在于,预处理方式包括:
将中文文本进行分词处理;
去除分词结果中词数小于设定值的文本;
去除停用词,得到相应的词序列。
3.根据权利要求1所述的一种基于笔画和字形的形态学双通道中文词嵌入方法,其特征在于,所述汉字的笔顺信息与字形信息预先从开源字典数据中爬取。
4.根据权利要求1所述的一种基于笔画和字形的形态学双通道中文词嵌入方法,其特征在于,跳字模型中的相似度函数表示为:
其中,与分别为单词w与单词e的词级特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881062.0/1.html,转载请声明来源钻瓜专利网。