[发明专利]基于改进关系向量模型的老-汉双语句子相似度计算方法在审

专利信息
申请号: 201810808788.7 申请日: 2018-07-19
公开(公告)号: CN109145289A 公开(公告)日: 2019-01-04
发明(设计)人: 周兰江;李思卓;周枫 申请(专利权)人: 昆明理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法,属于自然语言处理和机器学习技术领域。本发明首先依据构建的老‑汉双语词典计算出老挝语和汉语句子的相似度值,然后充分考虑双语句子长度信息,计算出老挝语和汉语句子长度比例值,综合两个值计算出老挝语和汉语句子相似度值,使得老‑汉双语句子相似度计算具有较高的可靠性,这样就能在对齐过程中将相似度较高的老挝语和汉语句子进行对齐,简化句子对齐的流程。本发明能够有效地从双语语料库中挖掘出平行句对,老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率,因此本发明具有一定的研究意义。
搜索关键词: 双语句子 老挝语 相似度 对齐 汉语 句子 相似度计算 句子对齐 机器学习技术 自然语言处理 句子相似度 双语语料库 长度信息 关系向量 双语词典 最佳匹配 有效地 准确率 构建 算法 匹配 平行 挖掘 改进 研究
【主权项】:
1.一种基于改进关系向量模型的老‑汉双语句子相似度计算方法,其特征在于:包括如下步骤:Step1、首先对语料中汉语句子Ti和老挝语句子Tj进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;Step1.1、首先利用分词系统分别对汉语语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子;Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性;Step2、将Step1得到的汉语句子Ti和老挝语句子Tj的关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示;Step2.1、定义1:关键词向量表示的定义:如给定一个汉语句子Ti,经过分词系统分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn}。Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量表示后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj),即假设汉语句子向量长度短于老挝语句子向量长度,此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},对于汉语句子Ti中的每一个关键词mi,计算老‑汉双语句子相似度值;Step3.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词表示和权重值向量,所以在此处利用定义2、定义3、定义4进行说明:定义2:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},在向量中关键词mi的前一个关键词mi‑1称为mi的前关键词,mi的后一个关键词mi+1称为mi的后关键词;定义3:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},Ti的向量长度Len(Ti)=n,给每一个关键词mi赋一个初始权重值所有关键词的权重值构成一个向量称为Ti的初始权重值向量,表示为TBi={b1,b2,…,bn};定义4:给定两个汉语句子Ti和老挝语句子Tj的关键词向量表示,对于Tiv中的任一关键词mi,如果mi也在Tj中出现,则称mi在Tj中存在,Ti中所有在Tj中存在的关键词构成的向量称为Ti基于Tj的存在向量,表示为Ei,j={e1,e2,…,ep},存在向量中相应关键词的权重值构成的向量称为Ti基于Tj的存在值向量,表示为TEi,j={v1,v2,…,vp},然后分别进行Step3.2和Step3.3;Step3.2、通过相应增加关键词为近义词的权重来提高第三方语言精度,然后进行Step3.4;Step3.3、通过增加前关键词和后关键词的判断个数来提高关键词位置的精度,然后进行Step3.4;Step3.4、根据得到汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},汉语句子Ti基于老挝语句子Tj的存在值向量TEi,j={v1,v2,…,vp},因此,老‑汉双语句子相似度值计算公式如公式(1)所示:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810808788.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top