[发明专利]基于改进关系向量模型的老-汉双语句子相似度计算方法在审
申请号: | 201810808788.7 | 申请日: | 2018-07-19 |
公开(公告)号: | CN109145289A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 周兰江;李思卓;周枫 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双语句子 老挝语 相似度 对齐 汉语 句子 相似度计算 句子对齐 机器学习技术 自然语言处理 句子相似度 双语语料库 长度信息 关系向量 双语词典 最佳匹配 有效地 准确率 构建 算法 匹配 平行 挖掘 改进 研究 | ||
本发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法,属于自然语言处理和机器学习技术领域。本发明首先依据构建的老‑汉双语词典计算出老挝语和汉语句子的相似度值,然后充分考虑双语句子长度信息,计算出老挝语和汉语句子长度比例值,综合两个值计算出老挝语和汉语句子相似度值,使得老‑汉双语句子相似度计算具有较高的可靠性,这样就能在对齐过程中将相似度较高的老挝语和汉语句子进行对齐,简化句子对齐的流程。本发明能够有效地从双语语料库中挖掘出平行句对,老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率,因此本发明具有一定的研究意义。
技术领域
本发明涉及一种基于改进关系向量模型的老-汉双语句子相似度计算方法,属于自然语言处理和机器学习技术领域。
背景技术
句子相似度计算是自然语言处理领域中比较重要的研究课题,应用广泛。在问答系统中,需要使用相似度方法对用户所提问题和系统知识库中的问题进行比较,找到问题的最佳匹配并返回最佳答案。在自动文摘的生成过程中,需要用到句子相似度的方法来排除意思相近的句子,避免文摘的冗余。在跨语言方面,汉老双语句子相似度计算可以应用在汉老热点新闻的搜索,汉老教育资源共享,以及在各方面促进汉老文化交流和双方的发展。
发明内容
本发明要解决的技术问题是提供一种基于改进关系向量模型的老-汉双语句子相似度计算方法,能够有效地提高老-汉双语句子相似度计算的准确率,另一方面也能对老挝语语料进行扩充,因此本发明具有一定的研究意义。
本发明采用的技术方案是:一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:包括如下步骤:
Step1、首先对语料中汉语句子Ti和老挝语句子Tj进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;
Step1.1、首先利用分词系统分别对汉语语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子;
Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性;
Step2、将Step1得到的汉语句子Ti和老挝语句子Tj的关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示;
Step2.1、定义1:关键词向量表示的定义:如给定一个汉语句子Ti,经过分词系统分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn};
Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量表示后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj),即假设汉语句子向量长度短于老挝语句子向量长度,此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},对于汉语句子Ti中的每一个关键词mi,计算老-汉双语句子相似度值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810808788.7/2.html,转载请声明来源钻瓜专利网。