[发明专利]一种用于中文语句的聚类方法及装置在审
申请号: | 201810579083.2 | 申请日: | 2018-06-07 |
公开(公告)号: | CN109101479A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 余腾;陈曦;李菁;程进兴 | 申请(专利权)人: | 苏宁易购集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 苏一帜 |
地址: | 210042 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 聚类处理 词向量 相似度 训练集 聚类 中文 互联网技术 模型计算 句子 汉语 | ||
本发明实施例公开了一种用于中文语句的聚类方法及装置,涉及互联网技术领域,能够缓减针对汉语句子的分析结果不佳的问题。本发明包括:建立训练集,所述训练集包括了用于进行聚类处理的候选语句;利用由词向量模型计算得到的词向量,获取所述训练集中各个候选语句的相似度;根据所得到的词向量和所述各个候选语句的相似度,对所述训练集中的候选语句进行聚类处理。本发明适用于针对中文语句的聚类处理。
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于中文语句的聚类方法及装置。
背景技术
有关机器人自动问答系统中所应用的数学方法,其实很早就开始了理论研究,之后又由硅谷的几家网络技术公司,比如谷歌,开始实际的市场应用,目前国内的互联网公司也在加大投入,并不断推出新的方案。
问句相似度计算方法,是机器人自动问答系统中的关键部分,而目前针对汉语句子的句法分析技术仍然有待提高。其中,问句相似度计算结果的准确率,将直接影响查询结果。目前常用的方案是,从已有的问题库中搜索相似问句,供用户自己选择。但是基于关键词搜索结果仅仅只是文字匹配,在语义相关性,发散性和多样性方面都有所欠缺。
在问句相似度计算过程中,实现聚类的方法,一般是采用Lucene/Solr、FastText和Word2Vec等技术实现句子聚类。但是,采用Lucene/Solr作为搜索引擎技术基于文本匹配计算句子相似度来进行聚类,难以做到基于语义等更深层次的相关度匹配。而采用FastText和word2vec虽然能在词语聚类分类上效果显著,但是平均化成句向量doc2vec之后,受到噪音词影响很不稳定,聚类结果不准确。从而导致针对汉语句子的分析结果不佳。
发明内容
本发明的实施例提供一种用于中文语句的聚类方法及装置,能够缓减针对汉语句子的分析结果不佳的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
建立训练集,包括:读取前端服务器的问答日志,并从所述问答日志中提取历史数据,其中,所述前端服务器用于通过聊天界面与用户设备进行信息交互,从而形成对话场景;所述问答日志中包括了指定数量的对话场景,每个对话场景包括至少一个提问语句和至少一个回答语句;根据所述历史数据生成训练集,其中,所述训练集包括了用于进行聚类处理的候选语句。所述训练集包括了用于进行聚类处理的候选语句;
利用由词向量模型计算得到的词向量,获取所述训练集中各个候选语句的相似度;
根据所得到的词向量和所述各个候选语句的相似度,对所述训练集中的候选语句进行聚类处理。
在传统的聊天机器人应用方面,常用的聚类工具往往采用Lucene/Solr作为搜索引擎技术基于文本匹配计算句子相似度来进行聚类,不能做到基于语义等更深层次的相关度匹配。本发明基于深度学习技术实现,具体通过FastText和Word2Vec训练出的词向量,结合文本匹配的相似度、以及进一步的关键词权重等多方面考量,对语句进行聚类,从而得到更加准确的聚类结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种可能的系统架构示意图;
图2为本发明实施例提供的方法流程示意图;
图3为本发明实施例提供的装置的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁易购集团股份有限公司,未经苏宁易购集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810579083.2/2.html,转载请声明来源钻瓜专利网。