[发明专利]一种混合特征融合的中文化工文献分词方法有效
申请号: | 202010842606.5 | 申请日: | 2020-08-20 |
公开(公告)号: | CN112101014B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 李翔;张柯文;朱全银;高尚兵;王媛媛;丁行硕;沈天宇 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/117;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 223003 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合 特征 融合 中文 化工 文献 分词 方法 | ||
本发明公开了一种混合特征融合的中文化工文献分词方法,首先构建化工科学文献语料库来训练中文分词任务;接着,利用BiLSTM和CNN提取并融合文档特征,结合边界特征构建条件随机场训练端到端中文分词模型;然后,开放模型接口,对用户输入文本进行分词;最后,通过ECharts渲染分词结果实现化工关键词可视化,系统接受用户反馈并进行处理。本发明将自然语言处理和深度学习方法应用于化工领域,通过特征融合提高对包含中英文专业词汇的化工中文文档分词效果,解决大量新词和中英文混合专业词汇给分词结果造成化工领域术语识别率低的问题。
技术领域
本发明属于自然语言处理和信息检索技术领域,特别涉及一种混合特征融合的中文化工文献分词方法。
背景技术
本发明中的中文化工文献分词方法对自然语言处理和信息检索有重要的作用和意义。借助大数据技术,从文本文档中提取结构化信息和发现知识并反馈给研究者,研究者们可以更科学地分析、总结实验结果,从而更好地指导化工生产实践。然而中文化工文档的数据处理往往面临更困难的局面,一方面,中文是用连续的字符序列编写的,单词之间不似英文有明显的空格界限。另一方面,化工领域文档中包含化学式以及中英文混合词汇,以致计算机难以识别有中文意义的专业单词。因此,将自然语言处理和深度学习等方法应用于化工领域具有很好的研究价值。
中文分词(CWS,Chinese Word Segment),是进行中文自然语言处理的基础。到目前为止,已有的自动分词研究成果仍不能完全满足应用的需要,在一些专业关键领域问题上仍然值得继续探讨,如分词的规范性、切分歧义、未登录词识别、分词与理解的先后等。
特征提取,针对传统机器学习的序列标注模型存在着特征向量稀疏而且维度庞大,导致内存和计算资源的浪费的缺点,利用深度学习(DNNs)自动学习和提取深度特征的优势可作为CWS的有效工具。中文里,CNN可以使用在句子里分词后的字层面,获取更多特征,BiLSTM相比于CNN的好处是能保留到远端的上下文信息,也符合文本的建模。BiLSTM可以学习上下文特征,但不利于编码,而CNN可以学习字符级拼写特征,但很难提取文本的序列化特征。
现有的中文分词任务已取得了很好的效果。然而,化工领域中文分词方法还存在以下问题:1、化工领域术语识别问题,提高新词识别率;2、大量新词和中英文混合专业词汇给分词结果带来了困难等问题。基于以上技术中存在的问题,本文提出一种基于混合特征融合的中文化工文献中文分词方法。
发明内容
发明目的:针对上述问题,本发明提供一种混合特征融合的中文化工文献分词方法,通过CNN和BiLSTM模型抽取文本特征,将融合后的特征输入到CRF层以获得更好的分词,从而解决化工领域术语识别无法分割等问题。
技术方案:本发明提出一种混合特征融合的中文化工文献分词方法,包括如下步骤:
(1)从化工科学文献挖掘中文化工文献数据,并对文献数据进行预处理,得到清洗后语料T1,提取关键词构建化学技术行业中英文关键词库K;
(2)使用化学技术行业中英文关键词库K对挖掘的语料库数据进行分词标记和词性标注,得到化工文献语料T2,构建中英文词典V,训练并得到word2vec语言模型W;
(3)输入化工文献语料T2,处理每一条文本记录,通过语言模型W处理得到字向量序列S,分别输入到预先构建的CNN和BiLSTM模型中抽取局部特征Fc和上下文特征Fb,并融合特征Fc和Fb,得到新的特征F;
(4)将步骤(3)得到新的特征F输入CRF模型,利用邻居标签信息提高标签标记准确性,训练混合特征融合的端到端中文分词模型,得到训练后的模型M;
(5)开放word2vec语言模型接口API,获取用户输入带分词文本T′,调用W模型接口对文本进行处理得到对应词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010842606.5/2.html,转载请声明来源钻瓜专利网。