[发明专利]基于改进关系向量模型的老-汉双语句子相似度计算方法在审

申请号：	201810808788.7	申请日：	2018-07-19
公开（公告）号：	CN109145289A	公开（公告）日：	2019-01-04
发明（设计）人：	周兰江;李思卓;周枫	申请（专利权）人：	昆明理工大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/22
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	双语句子老挝语相似度对齐汉语句子相似度计算句子对齐机器学习技术自然语言处理句子相似度双语语料库长度信息关系向量双语词典最佳匹配有效地准确率构建算法匹配平行挖掘改进研究
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法，属于自然语言处理和机器学习技术领域。本发明首先依据构建的老‑汉双语词典计算出老挝语和汉语句子的相似度值，然后充分考虑双语句子长度信息，计算出老挝语和汉语句子长度比例值，综合两个值计算出老挝语和汉语句子相似度值，使得老‑汉双语句子相似度计算具有较高的可靠性，这样就能在对齐过程中将相似度较高的老挝语和汉语句子进行对齐，简化句子对齐的流程。本发明能够有效地从双语语料库中挖掘出平行句对，老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合，能够有效提高句子对齐的准确率，因此本发明具有一定的研究意义。

技术领域

本发明涉及一种基于改进关系向量模型的老-汉双语句子相似度计算方法，属于自然语言处理和机器学习技术领域。

背景技术

句子相似度计算是自然语言处理领域中比较重要的研究课题，应用广泛。在问答系统中，需要使用相似度方法对用户所提问题和系统知识库中的问题进行比较，找到问题的最佳匹配并返回最佳答案。在自动文摘的生成过程中，需要用到句子相似度的方法来排除意思相近的句子，避免文摘的冗余。在跨语言方面，汉老双语句子相似度计算可以应用在汉老热点新闻的搜索，汉老教育资源共享，以及在各方面促进汉老文化交流和双方的发展。

发明内容

本发明要解决的技术问题是提供一种基于改进关系向量模型的老-汉双语句子相似度计算方法，能够有效地提高老-汉双语句子相似度计算的准确率，另一方面也能对老挝语语料进行扩充，因此本发明具有一定的研究意义。

本发明采用的技术方案是：一种基于改进关系向量模型的老-汉双语句子相似度计算方法，其特征在于：包括如下步骤：

Step1、首先对语料中汉语句子T_i和老挝语句子T_j进行分词和词性标注，从中筛选出汉语句子和老挝语句子的关键词；

Step1.1、首先利用分词系统分别对汉语语句子T_i和老挝语句子T_j进行分词，得到分词后的汉语和老挝语句子；

Step1.2、经过分词后，进行词性标注，从中过滤出一个句子的主要成分，它们包括名词、代词、动词、形容词和副词这几种词性，将之作为汉语句子和老挝语句子相应的关键词，这样做可以极大限度地保证句子的语义完整性；

Step2、将Step1得到的汉语句子T_i和老挝语句子T_j的关键词转换为第三方语言英语，构成T_i和T_j的关键词向量表示；

Step2.1、定义1：关键词向量表示的定义：如给定一个汉语句子T_i，经过分词系统分词后，所得到的关键词m_i构成的向量称为汉语句子T_i的关键词向量表示，为T_iv＝{m₁,m₂,…,m_n}；

Step3、构成汉语句子T_i和老挝语句子T_j的关键词向量表示后，然后考虑向量长度更短的关键词向量，这里假设Len(T_i)≤Len(T_j)，即假设汉语句子向量长度短于老挝语句子向量长度，此时计算汉语句子T_i的初始权重值向量TB_i＝{b₁,b₂,…,b_n}，对于汉语句子T_i中的每一个关键词m_i，计算老-汉双语句子相似度值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810808788.7/2.html，转载请声明来源钻瓜专利网。

上一篇：基于变分自编码模型的文本深度特征提取方法
下一篇：基于字向量与自注意力机制的语义相似度计算方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于改进关系向量模型的老-汉双语句子相似度计算方法在审

专利文献下载