[发明专利]基于改进关系向量模型的老-汉双语句子相似度计算方法在审
申请号: | 201810808788.7 | 申请日: | 2018-07-19 |
公开(公告)号: | CN109145289A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 周兰江;李思卓;周枫 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法,属于自然语言处理和机器学习技术领域。本发明首先依据构建的老‑汉双语词典计算出老挝语和汉语句子的相似度值,然后充分考虑双语句子长度信息,计算出老挝语和汉语句子长度比例值,综合两个值计算出老挝语和汉语句子相似度值,使得老‑汉双语句子相似度计算具有较高的可靠性,这样就能在对齐过程中将相似度较高的老挝语和汉语句子进行对齐,简化句子对齐的流程。本发明能够有效地从双语语料库中挖掘出平行句对,老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率,因此本发明具有一定的研究意义。 | ||
搜索关键词: | 双语句子 老挝语 相似度 对齐 汉语 句子 相似度计算 句子对齐 机器学习技术 自然语言处理 句子相似度 双语语料库 长度信息 关系向量 双语词典 最佳匹配 有效地 准确率 构建 算法 匹配 平行 挖掘 改进 研究 | ||
【主权项】:
1.一种基于改进关系向量模型的老‑汉双语句子相似度计算方法,其特征在于:包括如下步骤:Step1、首先对语料中汉语句子Ti和老挝语句子Tj进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;Step1.1、首先利用分词系统分别对汉语语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子;Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性;Step2、将Step1得到的汉语句子Ti和老挝语句子Tj的关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示;Step2.1、定义1:关键词向量表示的定义:如给定一个汉语句子Ti,经过分词系统分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn}。Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量表示后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj),即假设汉语句子向量长度短于老挝语句子向量长度,此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},对于汉语句子Ti中的每一个关键词mi,计算老‑汉双语句子相似度值;Step3.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词表示和权重值向量,所以在此处利用定义2、定义3、定义4进行说明:定义2:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},在向量中关键词mi的前一个关键词mi‑1称为mi的前关键词,mi的后一个关键词mi+1称为mi的后关键词;定义3:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},Ti的向量长度Len(Ti)=n,给每一个关键词mi赋一个初始权重值所有关键词的权重值构成一个向量称为Ti的初始权重值向量,表示为TBi={b1,b2,…,bn};定义4:给定两个汉语句子Ti和老挝语句子Tj的关键词向量表示,对于Tiv中的任一关键词mi,如果mi也在Tj中出现,则称mi在Tj中存在,Ti中所有在Tj中存在的关键词构成的向量称为Ti基于Tj的存在向量,表示为Ei,j={e1,e2,…,ep},存在向量中相应关键词的权重值构成的向量称为Ti基于Tj的存在值向量,表示为TEi,j={v1,v2,…,vp},然后分别进行Step3.2和Step3.3;Step3.2、通过相应增加关键词为近义词的权重来提高第三方语言精度,然后进行Step3.4;Step3.3、通过增加前关键词和后关键词的判断个数来提高关键词位置的精度,然后进行Step3.4;Step3.4、根据得到汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},汉语句子Ti基于老挝语句子Tj的存在值向量TEi,j={v1,v2,…,vp},因此,老‑汉双语句子相似度值计算公式如公式(1)所示:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810808788.7/,转载请声明来源钻瓜专利网。