[发明专利]基于trie和LCS算法的文献分类方法和系统有效

专利信息
申请号: 201811147380.6 申请日: 2018-09-29
公开(公告)号: CN109543023B 公开(公告)日: 2020-09-08
发明(设计)人: 唐先明;王晓丽;陈新荣;邓达康;韩宝东;史晓凌;郭攀红;张德浩;谭培波;张学龙 申请(专利权)人: 中国石油化工股份有限公司石油勘探开发研究院;北京智通云联科技有限公司
主分类号: G06F16/335 分类号: G06F16/335;G06F16/35;G06F16/9032
代理公司: 北京远大卓悦知识产权代理事务所(普通合伙) 11369 代理人: 史霞
地址: 100083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 trie lcs 算法 文献 分类 方法 系统
【说明书】:

本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。

技术领域

本发明涉及文献分类技术领域,具体是一种基于trie和LCS算法的文献分类方法和系统。

背景技术

现有技术中没有采用LCS用来分类的文献纪录,以2018年最新的一篇文献“薛炜明,侯霞,李宁,一种基于word2vec的文本分类方法,[J]北京信息科技大学学报,p71-75,Vol.33No.1,Feb.2018”为参照,文中采用中文新闻文本分类语料,共包含文本2615篇,分为9类,F值最高为89.48%。文中给出的参照方法的效果为,改进的KNN的F值为84.15%,传统的KNN分类的F值为74.39%,但是该分类方法没有百万量级语料的验证结果。申请号为201510685864.6,专利名称为“确定文本串公共子序列的方法和设备”提供了一种用于在多个文本串中确定最长公共子序列的方法,其中包括将多个文本串分别转换为词序列;对词序列进行分类;以及在每一类中进行最长公共子序列运算,节省LCS运算所需的时间,快速计算LCS,而没有涉及用LCS进行文本快速分类的方法。

以字典为代表的规则分类方法具有语义明确、操作简单的特点,但是有几点困难难以克服:(1)没有字典只有语料的情况,比如问答系统中,问句意图的确认。问句意图的确认本质上是一个句子分类问题,但是由于问句不是书面语言,其表达方式、语序、用词等都不一定规范,很难找到一副分类字典来很好地覆盖所有的现实情况。比如FAQ问题列表里的问句为“川22井在哪个层?”,而现实中问句为“川22井停在哪个层”;(2)字典太长,但语料一般使用简称的情况,比如“山东美陵化工设备股份有限公司临淄污水净化分公司齐都污水处理厂”,在语料中一般只出现“齐都污水处理厂”这个简称,而“山东美陵化工设备股份有限公司临淄污水净化分公司”几个字一般就省略了。再比如,一般情况下“AB有限责任公司”只采用“AB”简称,而“有限责任公司”省略;(3)字典具有总分结构的特征词,而语料只有部分词的情况。例如字典为“C.I.酸性黄220等36种金属络合型酸性染料”,“不带防寒衬里的工业及职业用棉制男成人长裤、马裤”,“下扬子黄桥、大丰、句容、常州等地区”,“中、下扬子地区”、“中国中、东部地区”、“丙烷等碳同位素”、“常州等地区”;(4)字典具有同名的情况,比如”CF-11(一氟一氯甲烷)”、“三聚氰胺甲醛胶(密胺甲醛树脂、密胺树脂)“、“三(2-氯乙烯基)胂”、“TNT(2,4,6-三硝基甲苯、梯恩梯)”、“三亚亚龙湾开发股份有限公司(亚龙湾污水处理厂)”、“中国平煤神马集团平顶山朝川焦化有限公司(原名:平顶山煤业集团朝川焦化有限公司)”等;(5)中英文混合的情况,英文自带分词空格,而中文分词往往是按照最小粒度进行分割的,而这个最小粒度组合成表达语义的长词时往往会有歧义,尤其在文本有噪声的情况下,比如从pdf转换来的文本。比如“Rub'AIKhali盆地”、“MSC2MSC1界面”等;

总之,字典匹配只有在词的意义独立且唯一的情况下才适用,在遇到字典具有复杂语义的情况下,基于字典匹配的规则方法将会失灵,而复杂语义的字典在现实中是一种更为普遍的存在,因此,需要一种更为有效地方法来解决具有复杂语义字典的规则分类问题。

发明内容

本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油化工股份有限公司石油勘探开发研究院;北京智通云联科技有限公司,未经中国石油化工股份有限公司石油勘探开发研究院;北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811147380.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top