[发明专利]非结构化源数据的云端自主逻辑归档方法有效
申请号: | 201811273991.5 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109582756B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 张超;韩成;蒋振刚;于翠红;薛耀红;李华;权巍;胡汉平;耿雪娜 | 申请(专利权)人: | 长春理工大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35 |
代理公司: | 吉林长春新纪元专利代理有限责任公司 22100 | 代理人: | 王薇 |
地址: | 130022 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种非结构化源数据的云端自主逻辑归档方法,其特征在于:根据非结构化数据的自然语言描述内容,云端存储系统即可对其作出自主逻辑归档处理,对非结构化数据的描述内容进行抽离处理,利用句法分词、语义分析、相似度比较等自然语言处理操作,并自动为其分配相关的分词标签、简短摘要;其解决了云端存储过程过分依赖于主观操作的现实问题、低效问题;有效地提高了云端存储系统对自然语言的理解能力,从而有利于非结构化数据的云端自主逻辑归档。 | ||
搜索关键词: | 结构 数据 云端 自主 逻辑 归档 方法 | ||
【主权项】:
1.非结构化源数据的云端自主逻辑归档方法,其特征在于:根据非结构化数据的自然语言描述内容,云端存储系统即可对其作出自主逻辑归档处理,并自动为其分配相关的分词标签、简短摘要;该方法的具体实现步骤如下:步骤S1、云端存储过程按原有存储策略对非结构化数据UD进行物理存放,且非结构化数据存储表DST自动生成非结构化数据索引值UID;步骤S2、云端存储过程将非结构化数据UD的自然语言描述内容DESC传递给逻辑归档处理过程,并在逻辑归档表LST中新添记录LNM,将记录LNM的非结构化数据ID字段赋值为非结构化数据索引值UID,将记录LNM的数据内容描述字段赋值为自然语言描述内容DESC;步骤S3、逻辑归档处理过程将自然语言描述内容DESC和句子数N作为参数传递给HanLP的过程函数extractSummary;步骤S4、过程函数extractSummary根据TextRank算法对自然语言描述内容DESC进行抽取式摘要提取,从而得到自然语言描述内容DESC的抽取式摘要ABS,将记录LNM的数据描述摘要字段赋值为抽取式摘要ABS;步骤S5、利用数组结构,将逻辑分类表LCT的全部M个逻辑分类描述信息组织成逻辑分类描述数组LCDA,LCDA = { LCD1, LCD2, ……, LCDM },并将逻辑分类描述数组LCDA的所有逻辑分类描述信息LCD1、LCD2、……、LCDM添加至HanLP的Suggester容器;步骤S6、使用Suggester容器的过程函数suggest进行最佳逻辑分类描述的选取,将抽取式摘要ABS作为参数传递给过程函数suggest,从而得到与抽取式摘要ABS相似度最大的逻辑分类描述LCA;步骤S7、把抽取式摘要ABS和关键词个数P作为过程函数的调用参数,传递给HanLP的过程函数extractKeyword对抽取式摘要ABS进行提取操作,得到抽取式摘要ABS的关键词序列AKW,AKW = { AKW1, AKW2, ……, AKWP },将记录LNM的描述分词标签字段赋值为关键词序列AKW;步骤S8、把逻辑分类描述LCA和关键词个数P作为过程函数的调用参数,传递给HanLP的过程函数extractKeyword对逻辑分类描述LCA进行提取操作,得到逻辑分类描述LCA的关键词序列LKW,LKW = { LKW1, LKW2, ……, LKWP };步骤S9、使用HanLP中CoreSynonymDictionary的过程函数similarity,分别计算关键词序列AKW中每一个关键词与关键词序列LKW中所有关键词的相似度,选取关键词序列AKW中每一个关键词相似度的最大值构成相似度序列ALV,ALV = { ALV1, ALV2, ……, ALVP};步骤S10、设定相似度匹配容差范围为e,相似度匹配误差SMD如表达式EQ1所示,如果SMD < e,则跳转到步骤S12执行,否则继续执行步骤S11;表达式EQ1:SMD = P2 ‑ ( ALV1 + ALV2 + …… + ALVP )2步骤S11、在逻辑分类表LCT中新添记录CNM,则逻辑分类表LCT自动为记录CNM分配一个逻辑分类索引值LCID,将记录CNM的逻辑分类描述字段赋值为抽取式摘要ABS,将记录LNM的逻辑分类ID字段赋值为逻辑分类索引值LCID,跳转到步骤S13继续执行;步骤S12、在逻辑分类表LCT中,根据逻辑分类描述LCA查找其对应的逻辑分类索引值LSID,将记录LNM的逻辑分类ID字段赋值为逻辑分类索引值LSID;步骤S13、至此便可完成单个非结构化数据的云端自主逻辑归档,若要对其他非结构化数据进行自主逻辑归档,则返回至步骤S1重新执行即可。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春理工大学,未经长春理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811273991.5/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置