[发明专利]一种基于机器学习的催化剂抽取方法在审
申请号: | 202010220300.6 | 申请日: | 2020-03-25 |
公开(公告)号: | CN111401054A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 李鑫;沈伟;鲍琦 | 申请(专利权)人: | 苏州机数芯微科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N20/00 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 金宇平 |
地址: | 215000 江苏省苏州市苏州工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 催化剂 抽取 方法 | ||
本发明提出的一种基于机器学习的催化剂抽取方法,包括以下步骤:获取文本,并将文本中的词语进行分解并标准化处理;通过化学领域的文字标注工具对分解后的词语标记相应的POS标记以及CHUNK标记,将带有POS标记和CHUNK标记的词语进行序列化形成特征序列;通过预设的抽取模型对特征序列进行催化剂实体的识别抽取。本发明首先通过词语分解,实现了文本的特征提取,并实现了对文本冗余信息的清洗,降低了后续处理的工作量,提高了工作效率;同时,通过特征提取,也实现了对文本的精炼,从而提高了信息抽取精确程度。且,本实施方式中,通过机器学习模型抽取催化剂,智能化程度高,并且可靠。
技术领域
本发明涉及化学研究技术领域,尤其涉及一种基于机器学习的催化剂抽取方法。
背景技术
随着统计分析在化学研究中越来越多的应用,化学科研数据的采集整理愈加重要,其中从细分领域来讲,涉及到化学反应以及众多应用场景中,有关催化剂实体识别在整个化学领域的文本发掘中有着不可或缺的重要角色。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于机器学习的催化剂抽取方法。
本发明提出的一种基于机器学习的催化剂抽取方法,包括以下步骤:
S1、获取文本,并将文本中的词语进行分解并标准化处理;
S2、通过化学领域的文字标注工具对分解后的词语标记相应的POS标记以及CHUNK标记,将带有POS标记和CHUNK标记的词语进行序列化形成特征序列;
S3、通过预设的抽取模型对特征序列进行催化剂实体的识别抽取。
优选的,步骤S1具体为:获取文本,以句子为单位进行初步分词;然后根据预设的特殊类型模板将初步分词词语分类为特殊词语和普通词语,并对普通词语进一步分词作为二次分解词语,然后对特殊词语和二次分解词语进行标准化处理。
优选的,步骤S2中,对分解后的词语标记相应的POS标记以及CHUNK标记的方法为:首先通过预先加载的预测模型分别对词语进行POS标记以及CHUNK标记,然后综合两种标记结构对词语进行最终标记。
优选的,预测模型为CRF机器学习模型。
优选的,步骤S3具体为:特征序列输入抽取模型后,通过抽取模型根据标记抽取词语中与催化剂相关的化学名词并组合成催化剂实体后输出。
优选的,抽取模型为CRF模型。
本发明提出的一种基于机器学习的催化剂抽取方法,首先根据分词结果从文本中抽取特征序列,然后基于特征训练通过训练后的抽取模型抽取文本中的催化剂实体。如此,首先通过词语分解,实现了文本的特征提取,并实现了对文本冗余信息的清洗,降低了后续处理的工作量,提高了工作效率;同时,通过特征提取,也实现了对文本的精炼,从而提高了信息抽取精确程度。且,本实施方式中,通过机器学习模型抽取催化剂,智能化程度高,并且可靠。
附图说明
图1为本发明提出的一种基于机器学习的催化剂抽取方法流程图。
具体实施方式
参照图1,本发明提出的一种基于机器学习的催化剂抽取方法,包括以下步骤。
S1、获取文本,并将文本中的词语进行分解并标准化处理。
具体的,本步骤中,获取文本后,以句子为单位进行初步分词;然后根据预设的特殊类型模板将初步分词词语分类为特殊词语和普通词语,并对普通词语进一步分词作为二次分解词语,然后对特殊词语和二次分解词语进行标准化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州机数芯微科技有限公司,未经苏州机数芯微科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010220300.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能电池组件的串焊结构
- 下一篇:一种高系统发电效率防遮挡光伏组件