[发明专利]一种报告生成方法、系统、存储介质及电子设备有效
申请号: | 202210139471.5 | 申请日: | 2022-02-16 |
公开(公告)号: | CN114186066B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 张壹鼎;李伟;顾夏辉;安涛;刘威 | 申请(专利权)人: | 子长科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/166;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 周新楣 |
地址: | 100101 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 报告 生成 方法 系统 存储 介质 电子设备 | ||
1.一种报告生成方法,其特征在于,所述方法包括:
获取目标文本数据;
对所述目标文本数据进行去重,获得去重后的目标文本数据;
对所述去重后的目标文本数据进行分类,获得分类数据,包括:
根据词汇出现的频率,从所述去重后的目标文本数据中获取关键词;对所述关键词进行one-hot编码,得到编码后的目标文本数据;通过分类层对所述编码后的目标文本数据进行分类,得到所述分类后的数据;
按照预设时间间隔更新所述分类数据;
在达到预设时刻时,获取当前时刻的分类数据;
对所述当前时刻的分类数据进行排序,获得排序后的分类数据;
根据所述排序后的分类数据生成目标报告;
所述按照预设时间间隔更新所述分类数据,包括:
从所述获取目标文本数据的时刻开始计时,每当达到预设时间间隔时,获取当前时刻的目标文本数据;
根据所述当前时刻的目标文本数据和所述分类数据,获取汇总数据;
对所述汇总数据进行去重,获得去重后的汇总数据;
对所述去重后的汇总数据进行分类,获得分类后的汇总数据;
将所述分类后的汇总数据作为更新后的分类数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本数据进行去重,获得去重后的目标文本数据,包括:
去除所述目标文本数据中完全相同的文本内容,得到去重后的第一数据;
去除所述第一数据中相似的文本内容,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据。
3.根据权利要求2所述的方法,其特征在于,所述去除所述目标文本数据中完全相同的文本内容,得到去重后的第一数据,包括:
通过布隆过滤器去除所述目标文本数据中完全相同的文本,得到去重后的第一数据。
4.根据权利要求2所述的方法,其特征在于,所述去除所述第一数据中相似的文本内容,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据,包括:
通过Simhash算法去除所述第一数据中相似的文本,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据。
5.根据权利要求1所述的方法,其特征在于,所述对所述去重后的目标文本数据进行分类,获得分类数据,还包括:
按照预设窗口从所述去重后的目标文本数据中滑动截取窗口数据;
将所述窗口数据输入Bert预训练模型,得到Bert向量;
将所述Bert向量输入LSTM模型,得到第一训练结果;
通过分类层对所述第一训练结果进行分类,得到所述分类数据。
6.根据权利要求5所述的方法,其特征在于,所述Bert预训练模型的训练过程,包括:
获取标注数据;
对所述标注数据进行训练,得到Bert预训练模型。
7.根据权利要求1所述的方法,其特征在于,所述对所述分类数据进行排序,获得排序后的分类数据,包括:
从所述分类数据中选取多条文本数据;
分别将每条文本数据输入Bert预训练模型,得到每条文本数据对应的第一Bert向量;
通过第一预设算法处理所述第一Bert向量,得到单文本向量;
通过第二预设算法处理所有的所述单文本向量,得到第一目标向量;
获取第二目标向量;
获取所述第一目标向量与所述第二目标向量的相似度结果;
根据所述相似度结果对所述目标文本数据进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于子长科技(北京)有限公司,未经子长科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210139471.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有停泊时缓冲防撞功能的邮轮
- 下一篇:一种汽车底盘衬套的双工位扩孔工装