[发明专利]一种专利用途改写的数据深加工方法及计算机设备有效
申请号: | 202310024010.8 | 申请日: | 2023-01-09 |
公开(公告)号: | CN115934897B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 冯好国;徐青伟;严长春;范娥媚;裴非 | 申请(专利权)人: | 北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06Q50/18 |
代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 胡乐 |
地址: | 100089 北京市海淀区长春*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专利 用途 改写 数据 深加工 方法 计算机 设备 | ||
1.一种专利用途改写的数据深加工方法,其特征在于,包括以下步骤:
A、用途生成模型训练
a1)获取用于模型训练与评估的专利文献样本库及其每一篇专利文献对应的用途目标文本;
a2)对所述样本库中的每一篇专利文献进行数据预处理,每一篇专利文献经过数据预处理得到多个文档,所述多个文档分别对应于专利名称、摘要、以及说明书正文的若干段落;
a3)对于所述用途目标文本进行预处理和分词,然后基于词频对数线性规律以及覆盖文献数排序、结合停用词技巧构造用途文本特征;
a4)通过对所述用途文本特征进行数理统计,确定长文本压缩算法,用于生成专利文献的压缩文本作为用途生成模型的输入;
a5)利用所述压缩文本及其对应的用途目标文本,对用途生成模型进行训练和评估;
B、利用模型生成用途文本
获取待加工的专利文献,按照步骤a2)进行数据预处理,然后按照步骤a4)确定的长文本压缩算法生成该专利文献的压缩文本;将该压缩文本输入训练好的用途生成模型,得到该专利文献的用途文本。
2.根据权利要求1所述的专利用途改写的数据深加工方法,其特征在于,所述数据预处理包括:
专利名称处理:去掉前缀“一种”;
摘要处理:抽取出全文,将非中文标点转为中文标点;
说明书处理:抽取其中的技术领域、背景技术、发明内容、有益效果、正文末尾这五个部分内容,并将非中文标点转为中文标点;
经过处理后的专利名称、摘要、说明书中的所述五个部分内容,共计七个关键文档,用于后续的文本压缩处理;
对于说明书其它内容,将非中文标点转为中文标点后根据情况做备用。
3.根据权利要求2所述的专利用途改写的数据深加工方法,其特征在于,所述基于词频对数线性规律以及覆盖文献数排序、结合停用词技巧构造用途文本特征,包括:
统计用途目标文本词频,生成词频对数与词序的关系曲线,取曲线呈非线性下降与线性下降之间的拐点处向左的所有高频词,然后去除停用单字词,得到的高频词集合记为第一组高频词,数量共计N个;
统计用途目标文本中每个词覆盖用途目标文本的数量,根据覆盖用途目标文本的数量由多到少进行排序,然后去除排序靠前的高频词中的停用单字词,最终保留前N个高频词,记为第二组高频词;
将第一组高频词与第二组高频词取交集,得到用途文本特征。
4.根据权利要求3所述的专利用途改写的数据深加工方法,其特征在于,
通过统计用途目标文本词频,得到所述第一组高频词,包括:
a311)区分技术领域统计得到若干技术领域对应的高频词;
a312)不区分技术领域统计得到高频词;
a313)合并以上a311)和a312)两种统计方式得到的高频词,得到所述第一组高频词;
通过统计用途目标文本中每个词覆盖用途目标文本的数量,得到所述第二组高频词,包括:
a321)区分技术领域统计得到若干技术领域对应的高频词;
a322)不区分技术领域统计得到高频词;
a323)合并以上a321)和a322)两种统计方式得到的高频词,得到所述第二组高频词。
5.根据权利要求3所述的专利用途改写的数据深加工方法,其特征在于,
所述基于词频对数线性规律以及覆盖文献数排序、结合停用词技巧构造用途文本特征,还包括:
将第一组高频词与第二组高频词取交集后,与人工特征合并,得到所述用途文本特征;所述人工特征是由专家提供的与用途语句表述有关的词语。
6.根据权利要求3所述的专利用途改写的数据深加工方法,其特征在于,步骤a4)包括:
利用词频和文档覆盖数计算各个用途文本特征的权重,简记为特征权重;
设定特征在句子中的位置越靠前越重要,利用所述特征权重和用途文本特征在句子中的位置权重,建模句子权重;
基于句子权重和句子长度因素确定句子与用途目标相关性公式;
依据所述句子与用途目标相关性公式得出候选句子与用途相关性由高到低的排序,根据各所述关键文档的压缩长度阈值,抽取关键句,得到压缩文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司,未经北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310024010.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置