[发明专利]一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质有效
申请号: | 202011147063.1 | 申请日: | 2020-10-23 |
公开(公告)号: | CN112231535B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 曾庆田;王善松;倪维健;段华;李超;鲁法明;宋戈;林泽东;赵华 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F40/289;G06N20/00 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 266590 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 农业 病虫害 领域 多模态 数据 制作方法 处理 装置 存储 介质 | ||
1.一种农业病虫害领域多模态数据集制作方法,其特征在于,包括步骤如下:
首先,收集农业病虫害的类别,并建立层级分类系统;
其次,根据农业病虫害类别,搜集农业病虫害类别对应的农业技方,以及农业病虫害类别对应的图片;
最后,将搜集的农业病虫害类别对应的农业技方转换为结构化数据,并依次进行内容过滤、分词,获取农业病虫害领域文本模态数据集;
对搜集的农业病虫害类别对应的图片中的无用图片做初步过滤,并输入专门编写的可显示图片内容、图片标题、病害或虫害的名称的软件,人工进行进一步过滤,滤除非专业人士可辨认的无用图片,所述非专业人士可辨认的无用图片为图片标题和实际显示图片不符的图片;再进行数据增强处理,得到农业病虫害领域图像模态数据集;最终,获取了农业病虫害领域多模态数据集,农业病虫害领域多模态数据集包括农业病虫害领域文本模态数据集、农业病虫害领域图像模态数据集;
根据农业病虫害类别,采用Python-selenium爬虫模拟浏览器行为自动收集农业病虫害类别对应的图片,包括步骤如下:
(1)准备chromedriver.exe浏览器驱动程序;
(2)使用Python-selenium爬虫打开浏览器,访问image.google.com或者image.baidu.com或者image.bing.com;
(3)定位网页搜索框,键入所要查询的病害或虫害的中文名称;
(4)Python-selenium爬虫模拟点击每一张图片,弹出右侧详情页面;
(5)采用Python-selenium爬虫的Beautiful-Soup工具包解析右侧详情页面源代码,使用正则表达式匹配图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息;
(6)将匹配到的图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息结合病害或虫害的中文名称,以五元组形式存入list列表中;
(7)根据所述图片来源网站的图片链接将图片下载到以病害或虫害的中文名称命名的文件夹中;
(8)定位网页搜索框,键入所要查询的病害或虫害的英文名称,重复步骤(1)至(7)最终,每个病害或者虫害类别收集不少于2000张未经过滤的原始图片素材。
2.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,收集农业病虫害的类别,并建立层级分类系统;包括步骤如下:
收集若干个候选的农业病虫害类别,并建立层级分类系统,所述层级分类系统包括四层分类级别,一级类别包括病害类、虫害类;二级类别包括蔬菜、果树、经济作物、粮食作物,分别在病害类和虫害类下设定二级类别;三级类别是指植物名称,分别在蔬菜、果树、经济作物、粮食作物下设定三级类别;四级类别是指具体侵害植物的疾病或者昆虫,分别植物名称下设定四级类别。
3.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,根据农业病虫害类别,搜集农业病虫害类别对应的农业技方;所述农业技方包括病害类农业技方和虫害类农业技方,病害类农业技方包括症状、病原、传播途径和发病条件、防治方法四个字段,每个字段包含一段对应的文字描述;虫害类农业技方包括为害特点、形态特征、发生规律、防治方法四个字段,每个字段包含一段对应的文字描述。
4.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,将搜集的农业病虫害类别对应的农业技方转换为结构化数据,是指:采用正则表达式匹配农业病虫害类别对应的农业技方中各字段名称,再根据字段名称将整个文本进行切割,得到字段为键名、切割后的文本为键值的结构化数据。
5.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,内容过滤,是指:根据汉字停用词表、特殊字符停用词表对结构化数据中各个字段对应的切割后的文本进行内容过滤;
分词,是指:采用JIEBA分词工具的精确模式将内容过滤后各个字段对应的切割后的文本进行分词,得到农业病虫害领域文本模态数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011147063.1/1.html,转载请声明来源钻瓜专利网。