[发明专利]一种在线自学习的法院电子卷宗文本分类方法在审
申请号: | 202110188680.4 | 申请日: | 2021-02-19 |
公开(公告)号: | CN112836051A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 万玉晴;王霄 | 申请(专利权)人: | 太极计算机股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/279;G06F40/30;G06Q50/18 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 王珂 |
地址: | 100102 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 自学习 法院 电子 卷宗 文本 分类 方法 | ||
本发明公开了一种在线自学习的法院电子卷宗文本分类方法,包括采集文本数据,基于所采集的法律文书语料集,采用Word2vec的Skip‑gram模型,训练得到司法领域词向量模型,基于所采集的卷宗语料集,采用Doc2vec的PV‑DM模型进行训练,进行训练LDA模型;使用多维度语义表示方法获取卷宗文件特征向量;在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;利用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化。本发明通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,通过使用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化。
技术领域
本发明涉及文本分类技术领域,具体来说,涉及一种在线自学习的法院电子卷宗文本分类方法。
背景技术
文本分类是NLP的一项基本任务,相关研究主要包括文本预处理、文本表示、特征提取,以及分类模型构建。与英文不同,中文文本的预处理更为重要,对于文本分类任务来说,文本预处理主要包括分词、去除停用词、过滤低频词等过程。
文本分类最为关键的环节在于文本表示和特征提取,有时会合在一起完成。文本表示的目的是把语言文本转化为机器可计算的数学表达,主要理论方法有:向量空间模型、基于主题的方法、和基于机器学习的方法。向量空间模型(一种自动索引的向量空间模型,ACM通讯,1975,18(11):613-620)是对文本空间中每个文本使用n个特征词来表示,特征词的值可以是one-hot、词频、TF-IDF,VSM文本表示方法在长文本分类中具有很好的表现。基于主题的文本表示是从篇章级语义粒度对文本语义进行概括表达,主要有:有潜在语义分析(LSA:Latent Semantic Analysis)、潜在语义概率分析(pLSA:Probabilistic LatentSemantic Analysis)和隐含狄利克雷分布(LDA:Latent Dirichlet Allocation)等方法(通过潜在语义来分析索引,美国信息科学学会杂志,1990,41(6):391;一个潜在语义分析概论,过程论述,1998,25(2-3):259-284;潜在语义概率分析,第十五届人工智能不确定性会议论文集,Morgan Kaufmann出版股份有限公司,1999:289-296;狄利克雷潜在分配,机器学习研究杂志,2003,3(Jan):993-1022),LSA是在VSM基础上,通过奇异值分解得到文本特征矩阵的近似,该近似矩阵更稠密并易于计算。pLSA在LSA基础上进行了理论补充,具有完整的概率统计基础,通过所定义的生成模型从文本中学习出主题概率分布和主题的词概率分布。LDA模型在pLSA基础上加入狄利克雷先验,使模型更准确的拟合真实分布。基于机器学习的文本表示是当前被广泛使用方法,典型的神经网络语言模型有HLBL、RNNLM、Word2vec、GloVe、ELMo、BERT等(一种可扩展的分层分布式语言模型,神经信息处理系统国际会议,Curran联合股份有限公司,2008;基于递归神经网络的语言模型,国际演讲交流协会会议,2010:1045-1048;向量空间中词语表示的有效估计,arXiv预印本arXiv:1301.3781,2013;用于单词表示的全局向量,2014年自然语言处理中用于文字表示的经验方法会议的全球进展(EMNLP),2014:1532-1543;深度语境化的词语表征,arXiv预印本arXiv:1802.05365,2018),以上模型可训练得到字、词和句等细粒度语义单元的嵌入向量,进而获取文本表示。Mikolov等人提出的Doc2vec是直接用于文本表示的模型(句子和文档的分布式表示,第31届机器学习国际会议论文集(ICML-14),2014:1188-1196),该模型在Word2vec基础上引入段落信息,增强对文本语义表示的准确性和完整性。随着深度学习的兴起,出现了多种基于CNN、RNN的文本表示模型(用于句子分类的卷积神经网络,自然语言处理的经验方法研讨会,USA,2014,1746-1751;一种用于建模句子的卷积神经网络,arXiv预印本arXiv:1404.2188,2014;一种文本分类的C-LSTM神经网络,arXiv预印本arXiv:1511.08630,2015;基于递归和卷积神经网络的序列短文本分类,arXiv预印本arXiv:1603.03827,2016),前者能够较好的学习文本局部序列和语义信息,后者更善于学习上下文依赖关系、句法和行文逻辑等信息。深度学习追求的是end2end思想,这些模型通常结合词向量完成文本表示、特征提取、文本分类多个环节。特征提取可看作降维的过程,从特征空间中筛选出主要特征,新的特征子集能够更简洁准确的表现文本类别差异,提高分类性能,常用的特征提取算法有TF-IDF、期望交叉熵、互信息、信息增益、卡方检验等方法,此外文本证据权、基尼指数、特征聚类等方法也常被用于特征降维。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太极计算机股份有限公司,未经太极计算机股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110188680.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种被动式超低能耗建筑外墙外保温系统施工方法
- 下一篇:电机转子及电机