[发明专利]一种专利用途改写的数据深加工方法及计算机设备有效

专利信息
申请号: 202310024010.8 申请日: 2023-01-09
公开(公告)号: CN115934897B 公开(公告)日: 2023-05-23
发明(设计)人: 冯好国;徐青伟;严长春;范娥媚;裴非 申请(专利权)人: 北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/338;G06Q50/18
代理公司: 北京华清迪源知识产权代理有限公司 11577 代理人: 胡乐
地址: 100089 北京市海淀区长春*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 专利 用途 改写 数据 深加工 方法 计算机 设备
【权利要求书】:

1.一种专利用途改写的数据深加工方法,其特征在于,包括以下步骤:

A、用途生成模型训练

a1)获取用于模型训练与评估的专利文献样本库及其每一篇专利文献对应的用途目标文本;

a2)对所述样本库中的每一篇专利文献进行数据预处理,每一篇专利文献经过数据预处理得到多个文档,所述多个文档分别对应于专利名称、摘要、以及说明书正文的若干段落;

a3)对于所述用途目标文本进行预处理和分词,然后基于词频对数线性规律以及覆盖文献数排序、结合停用词技巧构造用途文本特征;

a4)通过对所述用途文本特征进行数理统计,确定长文本压缩算法,用于生成专利文献的压缩文本作为用途生成模型的输入;

a5)利用所述压缩文本及其对应的用途目标文本,对用途生成模型进行训练和评估;

B、利用模型生成用途文本

获取待加工的专利文献,按照步骤a2)进行数据预处理,然后按照步骤a4)确定的长文本压缩算法生成该专利文献的压缩文本;将该压缩文本输入训练好的用途生成模型,得到该专利文献的用途文本。

2.根据权利要求1所述的专利用途改写的数据深加工方法,其特征在于,所述数据预处理包括:

专利名称处理:去掉前缀“一种”;

摘要处理:抽取出全文,将非中文标点转为中文标点;

说明书处理:抽取其中的技术领域、背景技术、发明内容、有益效果、正文末尾这五个部分内容,并将非中文标点转为中文标点;

经过处理后的专利名称、摘要、说明书中的所述五个部分内容,共计七个关键文档,用于后续的文本压缩处理;

对于说明书其它内容,将非中文标点转为中文标点后根据情况做备用。

3.根据权利要求2所述的专利用途改写的数据深加工方法,其特征在于,所述基于词频对数线性规律以及覆盖文献数排序、结合停用词技巧构造用途文本特征,包括:

统计用途目标文本词频,生成词频对数与词序的关系曲线,取曲线呈非线性下降与线性下降之间的拐点处向左的所有高频词,然后去除停用单字词,得到的高频词集合记为第一组高频词,数量共计N个;

统计用途目标文本中每个词覆盖用途目标文本的数量,根据覆盖用途目标文本的数量由多到少进行排序,然后去除排序靠前的高频词中的停用单字词,最终保留前N个高频词,记为第二组高频词;

将第一组高频词与第二组高频词取交集,得到用途文本特征。

4.根据权利要求3所述的专利用途改写的数据深加工方法,其特征在于,

通过统计用途目标文本词频,得到所述第一组高频词,包括:

a311)区分技术领域统计得到若干技术领域对应的高频词;

a312)不区分技术领域统计得到高频词;

a313)合并以上a311)和a312)两种统计方式得到的高频词,得到所述第一组高频词;

通过统计用途目标文本中每个词覆盖用途目标文本的数量,得到所述第二组高频词,包括:

a321)区分技术领域统计得到若干技术领域对应的高频词;

a322)不区分技术领域统计得到高频词;

a323)合并以上a321)和a322)两种统计方式得到的高频词,得到所述第二组高频词。

5.根据权利要求3所述的专利用途改写的数据深加工方法,其特征在于,

所述基于词频对数线性规律以及覆盖文献数排序、结合停用词技巧构造用途文本特征,还包括:

将第一组高频词与第二组高频词取交集后,与人工特征合并,得到所述用途文本特征;所述人工特征是由专家提供的与用途语句表述有关的词语。

6.根据权利要求3所述的专利用途改写的数据深加工方法,其特征在于,步骤a4)包括:

利用词频和文档覆盖数计算各个用途文本特征的权重,简记为特征权重;

设定特征在句子中的位置越靠前越重要,利用所述特征权重和用途文本特征在句子中的位置权重,建模句子权重;

基于句子权重和句子长度因素确定句子与用途目标相关性公式;

依据所述句子与用途目标相关性公式得出候选句子与用途相关性由高到低的排序,根据各所述关键文档的压缩长度阈值,抽取关键句,得到压缩文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司,未经北京知呱呱科技服务有限公司;知呱呱(天津)大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310024010.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top