[发明专利]电子档案在线生成方法及装置有效
申请号: | 202310028412.5 | 申请日: | 2023-01-09 |
公开(公告)号: | CN115757915B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 姜磊;郑志钉;程绪敏;孟禹 | 申请(专利权)人: | 佰聆数据股份有限公司 |
主分类号: | G06F16/93 | 分类号: | G06F16/93;G06F16/31;G06F16/383;G06F40/284;G06F40/205;G06F21/62;G06F21/60 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 孙朝锐 |
地址: | 510700 广东省广州市高新技术产业开*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 档案 在线 生成 方法 装置 | ||
本发明涉及电子档案管理领域,涉及到一种电子档案在线生成方法及装置,包括:启动多个用户信息管理平台,从每个用户信息管理平台中获取对应的用户信息文本得到多组用户信息文本,计算档案关键字集中每两个档案关键字在每组用户信息文本中的互信息值,选择互信息值大于互信息阈值的用户信息文本得到档案可用文本,从档案可用文本中抽取出关键信息得到档案关键文本,以所述档案关键字集作为加密字对档案关键文本执行加密,得到档案加密文本,将所述档案加密文本作为预先构建的电子档案生成程序的参数,并运行电子档案生成程序得到用户的电子档案。本发明可以解决高效快速的选择出用于生成电子档案的用户文本。
技术领域
本发明涉及电子档案管理领域,尤其涉及一种电子档案在线生成方法、装置、电子设备及计算机可读存储介质。
背景技术
电子档案是指通过计算机磁盘等设备进行存储与纸质档案相对应的电子类档案。伴随科学技术的发展,电子档案已逐渐得到普及,因此电子档案的生成技术也逐渐趋于成熟。
常用的电子档案生成技术主要依赖于OCR技术或命名实体识别技术,即获取大量的纸质版文本文案,通过OCR技术将纸质版文本文案转为计算机可读的信息文本,然后通过命名实体识别技术从信息文本中抽取出重要信息从而组件得到电子档案。
基于OCR和命名实体识别技术的电子档案生成方法已具有很高的实用性,但由于科学技术的发展,可用于执行命名实体识别的信息化文本确呈现爆炸性增长,如何快速选择用于生成电子档案的信息话文本是当前急需解决的技术问题。
发明内容
本发明提供一种电子档案在线生成方法、装置及计算机可读存储介质,其主要目的解决高效快速的选择出用于生成电子档案的用户文本。
为实现上述目的,本发明提供的一种电子档案在线生成方法,包括:
接收用户的电子档案的生成指令,根据所述生成指令启动多个用户信息管理平台;
从每个用户信息管理平台中获取对应的用户信息文本,得到多组用户信息文本;
确定电子档案的档案关键字集,计算所述档案关键字集中每两个档案关键字在每组用户信息文本中的互信息值;
选择互信息值大于互信息阈值的用户信息文本,得到一组或多组档案可用文本;
从一组或多组档案可用文本中抽取出关键信息,得到一组或多组档案关键文本;
以所述档案关键字集作为加密字,对档案关键文本执行加密,得到档案加密文本;
将所述档案加密文本作为预先构建的电子档案生成程序的参数,并运行电子档案生成程序得到用户的电子档案。
可选地,所述计算所述档案关键字集中每两个档案关键字在每组用户信息文本中的互信息值,包括:
从所述档案关键字集中依次提取两个不重复的档案关键字,得到第1个档案关键字和第2个档案关键字;
分别计算第1个档案关键字和第2个档案关键字在用户信息文本中的出现次数,得到第1出现次数和第2出现次数;
构建基于第1个档案关键字和第2个档案关键字的档案关键对;
统计档案关键对同时出现在用户信息文本中的出现次数,得到关键对出现次数;
根据所述第1出现次数、第2出现次数及关键对出现次数,计算得到每两个档案关键字在每组用户信息文本中的互信息值。
可选地,所述档案关键对的构建形式包括第1个档案关键字+**+第2个档案关键字,其中**表示不超过两个字符的任意字符。
可选地,所述根据所述第1出现次数、第2出现次数及关键对出现次数,计算得到每两个档案关键字在每组用户信息文本中的互信息值,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佰聆数据股份有限公司,未经佰聆数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310028412.5/2.html,转载请声明来源钻瓜专利网。