[发明专利]基于全文的大文本CRF和规则分类方法和系统有效
申请号: | 201710685936.6 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107368610B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 谭培波;史晓凌;茹海燕 | 申请(专利权)人: | 北京智通云联科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 全文 文本 crf 规则 分类 方法 系统 | ||
1.基于全文的大文本CRF和规则分类方法,其特征在于,包括以下步骤:
将待拆分文件拆分成标题文本和正文文本两部分并分别保存;
采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系,根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注,并采用CRF learn方法进行标题分类建模得到CRF模型;
采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系,根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型,所述DEC是按照领域、要素和概念实现的3阶张量模型;
获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存;
将所述待分类标题文本进行三级分词处理并采用CRF test方法调用所述CRF模型计算得出CRF分类结果;
将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果;
取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个这五个结果进行去重后输出。
2.如权利要求1所述的基于全文的大文本CRF和规则分类方法,其特征在于,获取原始文件并将其转换为txt格式并作为所述待拆分文件。
3.基于全文的大文本CRF和规则分类系统,其特征在于,包括:
基础语料层,其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件,所述基础语料层包括模型要素模块和语料库模块,所述模型要素模块包括DEC分类模型参数DC表、CRF模板文件以及分类结构树;
模型层,其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型,所述DEC是按照领域、要素和概念实现的3阶张量模型,所述模型层包括标题和正文文本截取模块、3级分词模块、CRF模块、DEC模块,以及分类结果整合模块;
应用层,其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出,所述CRF模块包括CRF模型构建模块和CRF模型调用模块;所述CRF模型构建模块用于对输入的样本语料进行建模;所述CRF模型调用模块用于接收分词后的标题输入文本,调用所述CRF模型构建模块建立的模型,计算输入文本的预测结果作为分类输出;所述DEC模块包括DEC模型构建模块和DEC模型调用模块;所述DEC模型构建模块用于接收分词后的正文语料,根据所述DEC分类模型参数DC表构建DEC分类模型;所述DEC模型调用模块调用所述DEC模型构建模块建立的模型,计算正文部分的字符输出类;所述分类结果整合模块用于取CRF输出结果中的第1个和DEC结果中的前4个,去重,然后组合在一起输出,作为全文的分类结果。
4.如权利要求3所述的基于全文的大文本CRF和规则分类系统,其特征在于,所述应用层包括新文献接收模块和输出结果显示模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710685936.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物质能负压悬浮式燃烧室
- 下一篇:一种沸腾炉风帽