[发明专利]一种基于WMD的中文问答匹配方法在审
申请号: | 201710539034.1 | 申请日: | 2017-07-04 |
公开(公告)号: | CN107391614A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 杜云贵;杜若;李智星;侯聪;晏世凯;刘科 | 申请(专利权)人: | 重庆智慧思特大数据有限公司;重庆明斯基数据科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆市恒信知识产权代理有限公司50102 | 代理人: | 刘小红 |
地址: | 400065 重庆市*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 wmd 中文 问答 匹配 方法 | ||
技术领域
本发明涉及问答系统以及自然语言处理领域,特别是涉及一种基于WMD的中文问答匹配方法。
背景技术
随着信息技术的迅猛发展,互联网上的数据呈海量增长,与此同时,网络上的冗余数据也越来越多,对于需要在网络上检索自己所需信息的用户来说,其检索任务也变得愈加困难,如何简洁方便又有效的获取用户想了解的信息已成为一个难题摆到人们面前。
因此,以Google、百度为代表的搜索引擎得到了迅猛的发展,用户只要向搜索引擎输入一些关键词组合,搜索引擎就可以返回大量包含相应关键词的网页,再通过对返回结果进行筛选,即可得到自己所需的信息。但搜索引擎存在很多的不足,一方面返回的结果太多,导致用户很难快速的定位到所需信息;另一方面,搜索引擎技术的基础——关键字匹配,只关注了语法形式,并没有涉及语言的语义信息,用户仅采用简单的查询词很难表达其真实的检索需求,导致检索效果一般。
获取需求信息的方式除搜索引擎外,还有另外一种方式,即问答系统(QA,Question Answering)。问答系统是目前自然语言处理领域的一个研究热点,区别于搜索引擎系统,问答系统既能够让用户使用自然语言句子提问,又能够为用户直接返回所需的答案,而不是一些相关的网页,这使得问答系统能让人们在杂乱无章的网络世界中快速、准确地获得自己想要的信息。然而,在问答系统中,对问题的正确理解是整个问题处理过程的前提,句子相似度的计算又是正确理解用户提出问题的基础。因此,需要针对问答系统开发一种精度更高的问句匹配方法以提升问答系统的准确率。
WMD(Word Mover’s Distance)距离是一种基于Word2vec的文档间相似度度量算法。对于两篇文档,该算法首先将文档使用BOW模型(Bag of Words)向量化表示,得到文档对应的特征向量;同时求取两篇文档中的所有词语之间的距离,进一步得到距离矩阵,将两篇文档所对应的特征向量和距离矩阵作为输入代入EMD(Earth Mover’s Distance)距离算法即可求得WMD距离。在文档分类中,当使用WMD距离替代原始kNN算法(k-Nearest Neighbors)中的欧式距离时,可以有效的降低分类的误差。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高搜索问答准确度、提高效率的基于WMD的中文问答匹配方法。本发明的技术方案如下:
一种基于WMD的中文问答匹配方法,其包括:
目标领域的知识库的建立步骤:对知识库的数据预处理步骤:常用同义词词典的建立步骤:词语距离字典的建立步骤:用户提问信息的预处理步骤:文档向量化表示步骤:问句检索及问句匹配步骤:答案返回。
进一步的,所述目标领域的知识库的建立步骤包括:收集某一目标领域的知识,并将其整理为问答对的形式。
进一步的,所述对知识库的数据预处理步骤包括:通过无监督算法从知识库中发现新词(新词是指词库里面没有出现过的词,比如某些机构的名字,网络新词汇等),将新词和目标领域的专业词汇作为词库,使用中文分词算法将知识库中的问句和答案进行分词操作,并过滤分词结果中出现的标点符号。
进一步的,所述常用同义词词典的建立步骤包括:将现有同义词词林、百科词条整理转换得到常用同义词词典,再使用爬虫抓取互联网上的词条并整理成中文常用同义词词典,并使用正则表达式将知识库中的英文单词找出并翻译,得到中英常用同义词词典,将这两者更新至常用同义词词典。
进一步的,所述词语距离字典的建立步骤包括:使用分词并过滤后的知识库作为训练语料,为出现过的每个词语训练一个d维的word2vec向量,通过每个词语的word2vec向量计算出每个词语的前k个近邻词语及对应的距离,得到词语距离字典,同时,为得到的常用同义词词典中的同义词两两之间启发式的设置一个距离值,使用该距离值更新词语距离字典。
进一步的,所述用户提问信息的预处理步骤包括:将发现的新词和目标领域的专业词汇作为词库使用中文分词算法将用户提出的问句进行分词操作,并过滤分词结果中的标点符号。
进一步的,所述文档向量化表示步骤包括:根据词频、文档频、词性、词语位置将知识库中的问句和用户提出的问句向量化表示。
进一步的,文档向量化表示使用的是加权后的TF-IDF值,权值设置的依据为词语的词性以及词语的长度信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆智慧思特大数据有限公司;重庆明斯基数据科技有限公司,未经重庆智慧思特大数据有限公司;重庆明斯基数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710539034.1/2.html,转载请声明来源钻瓜专利网。