[发明专利]一种文本结构化处理方法有效
申请号: | 201711251130.2 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108170715B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 朱敬华;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/253 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361007 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 结构 处理 方法 | ||
本发明涉及文本处理技术领域,提供了一种文本分类内容提取方法,包含步骤确定所述分类项目;对所述文本进行格式化处理,得到预处理文本;从所述预处理文本中获取各所述分类项目对应的初始内容;分别对各个所述分类项目对应的初始内容进行确认,以获取各个所述分类项目对应的分类内容。此外,基于所述文本分类内容提取方法,本发明还提供一种文本结构化处理方法。基于本发明所提供的技术方案,可实现对普通格式文本的规范化处理,不仅包括对文本整体的格式的统一整理,使其能更好的应用于计算机的分析处理,还包括针对文本个体的差异类信息进行规范化处理,使得最终对于该些文本的分析统计更加准确。
技术领域
本发明关于文本处理技术领域,尤其涉及一种文本分类内容提取方法及文本结构化处理方法。
背景技术
书面语言是指人们在书写和阅读文章时所使用的语言,它是在口语的基础上发展来的,是在文字产生之后才出现的,通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。
文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。广义“文本”:任何由书写所固定下来的任何话语。狭义“文本”:由语言文字组成的文学实体,代指“作品”,相对于作者、世界构成一个独立、自足的系统。简单来说,人们日常工作生活中使用到的使用文字记载的文献、文书等都属于文本。传统的文本一般是以纸张作为载体进行保存。
文本也是计算机的一种文档类型,该类文档主要用于记载和储存文字信息,而不是图像、声音和格式化数据。
计算机技术的应用范围越来越广泛和深入,电子文本的应用也越来越广泛,各类文本类型都可以在网络上获取得到。尤其是一些具备固定格式要求的文书,例如各种合同、协议、证明文件等,都可以从网络上获取到同类型的范本,再根据实际应用情况进行调整,用户便可进行使用。
随着大数据时代的到来,数据的处理和分析都需依赖于历史文本数据,但就算是相同类型的各历史文本中也会存在个体化差异,例如,同公司的两位不同员工的劳动合同,虽然大体的条款内容相同,但员工信息、入职时间、薪资情况或多或少都会存在差异,为了能够准确的获取到相关信息,不仅需要对文本的结构化特征进行提取归纳,还应实现对个体差异信息的捕获,以便于信息统计或者后续的使用,然而为了满足这些需求,需要结合多种技术手段来实现,其中具体的实现方法是目前正在探索的方向。
发明内容
为了实现文本的结构化处理,首先需对待处理的文本进行初始化处理,以为后续其他处理提供良好的基础,因此,本发明提供了一种文本分类内容提取方法,包含步骤:
确定所述分类项目;
对所述文本进行格式化处理,得到预处理文本;
从所述预处理文本中获取各所述分类项目对应的初始内容;
分别对各个所述分类项目对应的初始内容进行确认,以获取各个所述分类项目对应的分类内容。
在一实施方式中,所述对所述文本进行格式化处理包含将所述文本格式转化为文本格式,并进行分句处理。
在一实施方式中,所述从所述预处理文本中获取各所述分类项目对应的初始内容包含利用正则表达式或关键词搜索从所述预处理文本中获得各所述分类项目对应的初始内容。
在一实施方式中,所述分别对各个所述分类项目对应的初始内容进行确认包含基于支持向量机分类器对所述初始内容进行分类识别。
此外,基于上述文本分类内容提取方法,本发明还提供了一种文本结构化处理方法,包含步骤:
基于上述文本分类内容提取方法对所述文本进行分类内容提取,以获得包含所述文本的分类项目及各所述分类项目对应内容的规范化文本;
预测所述规范化文本中的用户录入位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通信息技术有限公司,未经厦门快商通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711251130.2/2.html,转载请声明来源钻瓜专利网。