[发明专利]一种基于神经网络的汉语语句相似度计算方法有效
申请号: | 202010455892.X | 申请日: | 2020-05-26 |
公开(公告)号: | CN111611809B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 叶家豪;兰萍;杨丹;李文勇;吴志强 | 申请(专利权)人: | 西藏大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/216;G06F40/126;G06F16/35;G06N3/0442;G06N3/08;G06F18/22 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 850000 西藏*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 汉语 语句 相似 计算方法 | ||
本发明提供的一种基于神经网络的汉语语句相似度计算方法,通过构建基于混合语义的编码器,使编码器的收敛速度加快,降低系统对训练语料数量的需求,进而降低系统发生数据过拟合的可能性;再构建语句相似度计算与分类模型实现汉语语句相似度的计算,计算结果准确率高,有效的缓解了现有的基于神经网络的文本相似度方案存在多领域中计算精度不一致的问题。
技术领域
本发明涉及面向自然语言处理技术领域,更具体的,涉及一种基于神经网络的汉语语句相似度计算方法。
背景技术
目前,计算单词或者语句的文本相似度方法可以分为四类[1]Y.Li,D.McLean,Z.A.Bandar,J.D.O'Shea and K.Crockett,Sentence similarity based on semanticnets and corpus statistics,in IEEE Transactions on Knowledge and DataEngineering,vol.18,no.8,pp.1138-1150,Aug.2006.doi:10.1109/TKDE.2006.130,分别是基于单词共现计算文本相似度的方法、基于知识库数据计算文本相似度的方法、基于网络引擎计算文本相似度的方法和基于神经网络计算文本相似度的方法。
基于单词共现计算相似度的方法[2]C.T.Meadow,B.R.Boyce,and D.H.Kraft,Text InformationRetrieval Systems,seconded.Academic Press,2000是将查询文本作为集合,集合中的元素为字符或者单词,以集合元素的重合程度量化查询文本间的相似度,该类方法计算简洁,但由于无法计算查询文本间的语义相似度,导致该类方法的计算精度低。
基于知识库的计算相似度的方法[3]P.W.Foltz,W.Kintsch,and T.K.Landauer,“The Measurement ofTextual Coherence with Latent Semantic Analysis,”DiscourseProcesses,vol.25,nos.2-3,pp.285-307,1998将单词放于树状知识库中,利用单词子概念之间的最短路径长度,公共节点深度,概念密度等特征量化单词的相似度。知识库的规模、布局及更新速度直接影响该类方法的性能,由于本体知识库的搭建和更新需要语言领域专家的参与,所以知识库存在更新速度慢的缺点,导致该类方法的性能随着时间的推移而逐渐下降。同时,该类方法是基于文本的基础语义计算文本相似度,因此,相同的文本在不同的语句中计算的文本相似度相同,无法基于文本的具体语义计算文本的语义相关性,导致该类方法的计算精度在整体上不足以满足精细的NLP任务的要求。
基于网络引擎的计算相似度的方法[4]Cilibrasi R L,Vitanyi P M B.TheGoogle Similarity Distance[J].IEEE Transactions on Knowledge and DataEngineering主要分为基于文本搜索共现页面和基于文本搜索共现窗口两种,不同的搜索引擎会导致不同的单词相似度结果,而且即使查询文本出现在一个页面中共同出现,也无法确定两个文本之间的相干关系,所以这种方法的计算精度难以满足用户的需求。
基于神经网络计算相似度的方法利用文本的上下文特征计算文本在具体语句中的具体语义相关性,该类方法计算精度高,但是神经网络模型存在在多领域中计算精度不一致的问题,且当查询文本为字或单词时,由于查询文本缺少上下文信息特征,神经网络模型无法判断文本的具体语义,该类方法性能下降。
综上所述,基于知识库的方法和基于神经网络的方法分别具有多领域计算精度一致和计算精度高的优点。但由于基于知识库的方案计算精度低和本体知识库更新速度慢的缺陷。目前,基于神经网络的文本相似度方案仍存在多领域中计算精度不一致的问题。
发明内容
本发明为克服现有的基于神经网络的文本相似度方案存在多领域中计算精度不一致的技术缺陷,提供一种基于神经网络的汉语语句相似度计算方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西藏大学,未经西藏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010455892.X/2.html,转载请声明来源钻瓜专利网。