[发明专利]智能词云图数据处理方法、装置、设备及存储介质在审
申请号: | 202010126063.7 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111368553A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 黄世锋 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/289;G06F16/35;G06F16/34 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 王新爱 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 云图 数据处理 方法 装置 设备 存储 介质 | ||
1.一种智能词云图数据处理方法,其特征在于,包括:
获取原始文本数据集,所述原始文本数据集中包含有多个原始语句;
确定每个所述原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容;
对所述第一显示内容进行归纳处理,得到第二显示内容;
将所述第二显示内容进行展示。
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述原始语句之间的句子相似度,包括:
通过预训练模型对每个所述原始语句进行编码得到每个所述原始语句对应的句子向量;
根据每个所述原始语句对应的句子向量计算得到每个所述原始语句之间的句子相似度。
3.根据权利要求2所述的方法,其特征在于,所述确定每个所述原始语句之间的句子相似度,包括:
提取每个所述原始语句中的关键词,通过预训练模型对每个关键词进行编码得到每个所述原始语句对应的关键词向量;
根据每个所述原始语句对应的关键词向量和句子向量计算得到每个所述原始语句之间的句子相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据每个所述原始语句对应的关键词向量和句子向量计算得到每个所述原始语句之间的句子相似度,包括:
计算每个所述原始语句对应的关键词向量的余弦相似度,以及对应的句子的余弦相似度;
依据预设比例对所述关键词向量的余弦相似度和所述句子的余弦相似度进行加权融合得到每个所述原始语句之间的句子相似度。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述句子相似度进行所述原始语句的聚类得到第一显示内容,包括:
根据所述句子相似度进行所述原始语句的聚类得到多个不同聚类类别;
确定每个所述聚类类别下原始语句的平均相似度,将平均相似度最高的原始语句确定为第一显示内容。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一显示内容进行归纳处理,得到第二显示内容,包括:
对所述第一显示内容中的每个语句进行分词、词性标注和依存句法分析处理得到待处理语句,提取所述待处理语句的句子主干信息;
将所述句子主干信息进行连接得到第二显示内容。
7.根据权利要求6所述的方法,其特征在于,所述提取所述待处理语句的句子主干信息,包括:
提取所述待处理语句的主语和谓语,确定所述待处理语句是否存在补语,如果存在补语,则提取所述待处理语句的补语,如果不存在则提取所述待处理语句的宾语。
8.根据权利要求7所述的方法,其特征在于,在确定所述待处理语句是否存在补语,还包括:
确定所述待处理语句是否存在并列语,如果是,则提取所述待处理语句中的并列语。
9.根据权利要求7所述的方法,其特征在于,在提取所述待处理语句的主语之后,还包括:
确定所述待处理语句中是否存在否定副词,如果是,则提取所述待处理语句中的否定副词。
10.根据权利要求6所述的方法,其特征在于,将所述句子主干信息进行连接得到第二显示内容,包括:
将所述句子主干信息进行连接,确定语句通顺度;
如果满足预设条件,则将所述句子主干信息的连接结果确定为第二显示内容。
11.根据权利要求10所述的方法,其特征在于,所述确定语句通顺度,如果满足预设条件,则将所述句子主干信息的连接结果确定为第二显示内容,包括:
通过预设语言模型验证语句通顺度得到语句困惑度值;
如果所述语句困惑度值小于设定阈值时,将所述句子主干信息的连接结果确定为第二显示内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010126063.7/1.html,转载请声明来源钻瓜专利网。