[发明专利]基于笔画和字形的形态学双通道中文词嵌入方法有效
申请号: | 201910881062.0 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110610006B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 陈恩红;刘淇;徐童;童世炜;陶汉卿 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/36 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 笔画 字形 形态学 双通道 文词 嵌入 方法 | ||
本发明公开了一种基于笔画和字形的形态学双通道中文词嵌入方法,包括:获取中文文本,并通过预处理得到相应的词序列;将词序列中的每个单词拆分为若干个汉字,再根据汉字的笔顺信息与字形图片信息,针对字级形态学特征、字级特征与词级特征的提取过程进行建模,从而获得适用于汉语自身特点的词嵌入表达。上述方法可以增强词嵌入的效果,为汉语自然语言处理、文本挖掘等领域的实践提供一定的技术支持。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于笔画和字形的形态学双通道中文词嵌入方法。
背景技术
自然语言是人类用来表达和传递信息的一套复杂系统。在这套系统中,词是表义的基本单元。词向量,顾名思义,是用来表示词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入。作为自然语言任务的基石,词嵌入一直是一个被广泛研究的课题。
近些年,信息全球化使得互联网上的文本信息呈现爆炸式的增长,其中汉语文本的比例和影响力与日俱增,针对中文的自然语言处理方法,尤其是作为任务基础的词嵌入方法越来越受到人们的关注。汉语作为一种由象形文字衍生而来的语言,其形态学含义极为丰富,不仅在一维笔顺特征上有体现,而且在二维空间上的字形中也有所反映。近年来的研究已经证明,刻画形态学特征有助于词嵌入的特征捕捉。因此,利用形态学信息来增强中文词嵌入的效果成为中文自然语言处理任务的一个重要问题。
目前,可用于中文的词嵌入方法或是将以英语为代表的字母语言所设计的方法迁移过来,或是独立刻画中文的形态学特征,例如笔画、字形。前者忽略了中文是一种语素语言,和英语等字母语言有着本质的区别,因此在应用于中文文本处理时效果欠佳。后者则是将形态学特征割裂开来,无法有效捕捉形态学各维度的特征,因此也十分局限。所以,如何充分利用形态学特征来增强中文词嵌入的效果依然有着很多的机遇和挑战。
发明内容
本发明的目的是提供一种基于笔画和字形的形态学双通道中文词嵌入方法,可以增强词嵌入的效果,为汉语自然语言处理、文本挖掘等领域的实践提供一定的技术支持。
本发明的目的是通过以下技术方案实现的:
一种基于笔画和字形的形态学双通道中文词嵌入方法,包括:
获取中文文本,并通过预处理得到相应的词序列;
将词序列中的每个单词拆分为若干个汉字,再根据汉字的笔顺信息与字形图片信息,针对字级形态学特征、字级特征与词级特征的提取过程进行建模,从而获得适用于汉语自身特点的词嵌入表达。
由上述本发明提供的技术方案可以看出,基于笔画和字形的形态学双通道中文词嵌入方法来对中文文本进行词嵌入建模,相比于传统的处理方法,可以更有效地借助于笔顺、字形信息对中文文本进行向量表征,从而提供更丰富的形态学信息,以及良好的可解释性,为互联网的自然语言处理任务提供更好的下游特征数据。具有一定实际应用价值,并且能够给一些相关的文本信息平台带来一定的潜在经济效益。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于笔画和字形的形态学双通道中文词嵌入方法的流程图;
图2为本发明实施例提供的汉字形态学特征的形式化描述图;
图3为本发明实施例提供的基于笔画和字形的形态学双通道中文词嵌入方法的模型框架图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881062.0/2.html,转载请声明来源钻瓜专利网。