[发明专利]基于句子特征向量的汉越伪平行句对抽取的方法有效
申请号: | 201910628354.3 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110489624B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 余正涛;黄继豪;线岩团;郭军军;翟家欣;文永华;高盛祥 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F40/58;G06F40/211;G06F40/117;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句子 特征向量 汉越伪 平行 抽取 方法 | ||
1.基于句子特征向量的汉越伪平行句对抽取的方法,其特征在于:所述方法的具体步骤如下:
Step1、语料收集与预处理:收集并预处理汉越句对的平行与非平行的训练语料和测试语料,以及用于伪平行句对抽取的可比语料;
Step2、汉越句法差异特征选取:根据汉越句法差异中修饰语后置的特点,标注汉越句法中差异大的词性;
Step3、构造汉越伪平行语料抽取模型的嵌入层,在嵌入层中融入句子的外部特征与汉越句法差异特征;
Step4、训练汉越伪平行语料抽取模型:上述Step3嵌入层的输出经过神经网络得到一个句子特征向量,再通过分类层的计算,训练伪平行语料抽取模型;
Step5、从可比语料抽取汉越伪平行句对:使用训练好的汉越伪平行语料抽取模型在汉越可比语料中抽取汉越伪平行句对;
所述步骤Step1的具体步骤为:
Step1.1、使用爬虫爬取了汉-越平行句对与不平行的汉-越句对作为汉-越伪平行句对抽取模型的训练数据,并且每个句对后都有一个是否平行的分类标签,从训练数据选取测试集,以及爬取可比语料;
Step1.2、对爬取的语料经过人工筛选再对其对进行位置标签,分句标签标记;再筛选可比语料,用于达到缩小模型的计算次数,减少了时间复杂度的效果;
所述Step1.2中,筛选可比语料的具体过程如下:
汉越伪平行语料抽取模型将伪平行句对抽取问题转化为一个二分类问题,汉越可比语料规模大,所以先将预训练好的汉语词嵌入投影到越南语词嵌入空间,以便在同一空间表示汉语和越南语;
公式1为句嵌入的表示,其中,|S|为句子的长度,是句子S第i个词在汉-越同一语言空间中的词嵌入;
S(x,y)=Ф(xemb,yemb) (2)
公式2中,φ(xemb,yemb)是句子x和句子y在同一语言空间下的余弦相似度;用构成句子的词的词嵌入的平均来表示每个句子,即句嵌入s,并用句嵌入计算每对汉越候选“平行”句对的相似度,得到一个分数S(x,y),并且为每个汉语句子保留10个最接近的越南语句子;
因为平行的汉-越句对的长度比应在一定范围内,若汉-越句对的长度不在此范围内时,那么他们平行的概率低,因此根据汉-越平行语料统计出汉越平行句对的长度比范围,剔除超出这个范围的句对,从而筛选出可比语料;
所述步骤Step2中:
句法结构简单的汉语和越南语句子的语序基本一致,其句法成分最基本的排列顺序都是主动宾SVO或主动补SVP;汉语和越南语最大的差异是这两种语言的修饰语与中心语的排列顺序不同,其中修饰语包括定语、状语;相对于汉语,越南语具有修饰语后置的特性;
根据汉语和越南语最大的差异是这两种语言的修饰语与中心语的排列顺序不同,其中修饰语包括定语、状语;作为汉语和越南语的定语、状语包括汉语和越南语中的动词、副词、形容词、名词,那么标注汉越句法中差异大的词性即可将汉语和越南语中的动词、副词、形容词、名词的词性标注出来;
所述步骤Step3的具体步骤为:
Step3.1、为了解决对词的位置不敏感的问题与模型能够区分两个句子,在嵌入层中,增加了位置嵌入层Position Embedding与分句嵌入层Segment Embedding;
Step3.2、在嵌入层中将句子特征向量化,再以向量相加的方式将句子外部特征与汉越句法差异特征融入嵌入层;其中,句子外部特征包括了传统的词嵌入、分句特征、位置信息特征,汉越句法差异特征包括了汉语和越南语中的动词、副词、形容词、名词的词性特征;
所述步骤Step4中经过神经网络得到一个句子特征向量时,其中,采用的神经网络是基于自我注意力机制的神经网络,其能有效抽取句子本身的特征,使用自我注意力机制生成特征向量是基于句子本身。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910628354.3/1.html,转载请声明来源钻瓜专利网。