[发明专利]一种基于问答平台的数据处理方法和装置有效
申请号: | 201410156263.1 | 申请日: | 2014-04-17 |
公开(公告)号: | CN105005564B | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 刘华生;张阔;顾思宇 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 答案数据 问答平台 数据处理 方法和装置 文本分析 相似度 相似度分析 处理效率 数据挖掘 有效地 聚类 噪声 量化 记录 | ||
1.一种基于问答平台的数据处理方法,其特征在于,包括:
对从问答平台获取的各答案数据分别进行文本分析,确定各答案数据的相似度;
根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照所述相似度分别对各答案数据对应的问题进行聚类,得到各问题簇;
分别对每个问题簇中的各项问题进行文本分析,提取所述问题簇中由各问题的关键词所构成的相关词对,其中,同一问题簇内的各关键词具有相关性。
2.根据权利要求1所述的方法,其特征在于,所述对从问答平台获取的各答案数据分别进行文本分析,确定各答案数据的相似度,包括:
对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取,获取答案数据的特征词汇;
根据所述特征词汇计算各答案数据之间的相似度。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照所述相似度分别对各答案数据对应的问题进行聚类,包括:
根据所述问答平台记录的各项问题与答案数据之间的对应关系,分别查找每个答案数据对应的问题;
按照所述各答案数据之间的相似度,对预设类别内的各项问题进行聚类,获取所述预设类别下聚类得到的各问题簇。
4.根据权利要求1所述的方法,其特征在于,所述分别对每个问题簇中的各项问题进行文本分析,提取所述问题簇中由各问题的关键词所构成相关词对,包括:
按照预设的实体词列表对同一问题簇的各项问题进行文本匹配,提取与所述实体词列表匹配的各关键词构成相关词对。
5.根据权利要求1或4所述的方法,其特征在于,所述提取所述问题簇中由各问题的关键词所构成的相关词对,还包括:
统计问题簇中每个关键词在问题和/或答案数据中出现的频次;
采用出现的频次达到第一阈值的关键词构成相关词集合;
记录各相关词集合,以及所述相关词集合内每个关键词出现的频次。
6.根据权利要求1所述的方法,其特征在于,还包括:
从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词,并在所述当前浏览页面中推荐所述相关词。
7.根据权利要求6所述的方法,其特征在于,还包括:
提取当前浏览页面中的关键词,以及所述关键词在页面中的位置权重;
在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合;
将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词;
按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序,按照排序结果在所述当前浏览页面中推荐所述相关词。
8.根据权利要求1或2所述的方法,其特征在于,所述对从问答平台获取的各答案数据分别进行文本分析之前,还包括:
从问答平台中获取问题以及问题对应的答案数据;
对每个问题和对应的答案数据的文本进行特征提取;
依据提取得到的特征对所述问题和答案数据进行分类,将所述问题和答案数据分别划分到既定的预设类别中。
9.一种基于问答平台的数据处理装置,其特征在于,包括:
分析模块,用于对从问答平台获取的各答案数据分别进行文本分析,确定各答案数据的相似度;
聚类模块,用于根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照所述相似度分别对各答案数据对应的问题进行聚类,得到各问题簇;
生成模块,用于分别对每个问题簇中的各项问题进行文本分析,提取所述问题簇中由各问题的关键词所构成的相关词对,其中同一问题簇内的各关键词具有相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410156263.1/1.html,转载请声明来源钻瓜专利网。