[发明专利]一种结合相似度和图匹配的老-汉双语句子对齐方法有效
申请号: | 201810225609.7 | 申请日: | 2018-03-19 |
公开(公告)号: | CN108549629B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 周兰江;李思卓;张建安 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/247;G06F40/58;G06F40/53 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 相似 匹配 双语 句子 对齐 方法 | ||
本发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法,属于自然语言处理和机器学习技术领域。本发明首先依据构建的老‑汉双语词典计算出老挝语和汉语句子的相似度值,然后充分考虑双语句子长度信息,计算出老挝语和汉语句子长度比例值,综合两个值计算出老挝语和汉语句子相似度值,使得老‑汉双语句子相似度计算具有较高的可靠性,这样就能在对齐过程中将相似度较高的老挝语和汉语句子进行对齐,简化句子对齐的流程。本发明能够有效地从双语语料库中挖掘出平行句对,老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率,因此本发明具有一定的研究意义。
技术领域
本发明涉及一种结合相似度和图匹配的老-汉双语句子对齐方法,属于自然语言处理和机器学习技术领域。
背景技术
双语语料是统计机器翻译、跨语言检索、双语词典构建等研究领域的重要基础资源,双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。而平行句对的挖掘则是构建双语语料的关键技术,因而具有重要的研究价值。很多情况下,双语语料我们可以获得,但是得到的文本通常并不是以句子为单位对齐的,例如有些是以段落或者按照整篇文章来对齐的。这种情况下,就需要将这些不是以句子为单位对齐的语料整理成句子对齐格式,从而进行平行句对的挖掘。
发明内容
本发明要解决的技术问题是提供一种结合相似度和图匹配的老-汉双语句子对齐方法,能够有效地从双语语料库中挖掘出平行句对,将老-汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率。
本发明采用的技术方案是:一种结合相似度和图匹配的老-汉双语句子对齐方法,包括如下步骤:
Step1、针对老-汉双语平行语料中的对齐片段,分别提取老挝语和汉语的特征词生成特征词列表,进而生成老挝语和汉语特征词的候选相似;
Step1.1、首先计算每一个对齐片段中老挝语和汉语的词频TF与反文档IDF比值的频率值,即TF/IDF,以此来确定老挝语和汉语中的一个词是否为特征词,其中,某一个词w的计算方法分别表示为公式(1)和(2)所示:
其中WNw表示词w在片段P中的词频,WNp表示一个片段p包含的总的词汇数,DNt表示语料中所有对齐片段的总数量,DNw表示在所有片段中包含词w的片段的数量,TFw为词w的词频,IDFw为词w的反文档,则词w的TF/IDF值的计算方法如公式(3)所示:
设定一个阈值,将老挝语和汉语中TF/IDF大于此阈值的词作为各自的特征词,并形成老挝语和汉语的特征词列表;
Step1.2、分别按照TF/IDF值的大小对老挝语和汉语的特征词列表中的特征词进行排序,在各自的列表中处于相似位置的词是互为译文的;
Step1.3、根据排序后的特征词列表,选择在列表中分布相近的词汇作为候选相似对,依次针对老挝语特征词列表中的每一个特征词,以对应的汉语特征词为中心选取特定数目的汉语特征词,作为老挝语特征词的候选相似;同理根据汉语特征词列表中的每一个特征词也选取特定数目的老挝语特征词,作为其特征词的候选相似;
Step2、根据老挝语和汉语的特征词列表和候选相似生成候选相似对列表,此列表中的每一个相似对都是可能互为翻译的老挝语特征词和汉语特征词,此时需要计算每一个相似对的相似概率,计算方法如公式(4)和(5)所示:
在一个相似对中,定义老挝语特征词LWi、汉语特征词CWj,则这两个特征词之间的相似概率计算如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810225609.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:流式自然语言信息的断句装置及方法
- 下一篇:一种影视剧本故事翻转点的识别方法