[发明专利]应用于林木领域的跨领域中文命名实体识别方法和系统在审
申请号: | 202310129112.6 | 申请日: | 2023-02-15 |
公开(公告)号: | CN116341547A | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 肖红;范裕全;黄子豪;姜文超 | 申请(专利权)人: | 广东工业大学;广州凡沙智能科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/30;G06N3/0442;G06N3/08;G06F18/22;G06F18/25 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 高棋 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用于 林木 领域 中文 命名 实体 识别 方法 系统 | ||
1.一种应用于林木领域的跨领域中文命名实体识别方法,其特征在于,包括:
S1:构建键值对形式的中文农业领域词典和中文林木领域词典;
S2:获取农业领域原始句子,在中文农业领域词典查找潜在词集合,并将潜在词集合拼接在农业领域原始句子的句尾,获得农业领域拼接句子;获取林木领域原始句子,在中文林木领域词典搜索潜在词集合,并将潜在词集合拼接在林木领域原始句子的句尾,获得林木领域拼接句子;
S3:分别对农业领域拼接句子和林木领域拼接句子进行向量化处理和位置编码,获得农业领域拼接向量和林木领域拼接向量;
S4:将农业领域拼接向量和林木领域拼接向量输入构建的上下文特征提取模型,获得农业领域上下文特征向量和林木领域上下文特征向量;
S5:将农业领域上下文特征向量和林木领域上下文特征向量输入构建的实体边界识别模型,获得农业领域-林木领域实体边界信息特征向量;
S6:将农业领域上下文特征向量、林木领域上下文特征向量和农业领域-林木领域实体边界信息特征向量输入构建的多任务跨领域命名实体识别模型中,获得农业领域命名实体标签序列和林木领域命名实体标签序列。
2.根据权利要求1所述的应用于林木领域的跨领域中文命名实体识别方法,其特征在于,所述步骤S1的具体为方法为:
利用现有的农业领域术语库和林木领域术语库,构建中文农业领域规范词典和中文林木领域规范词典;其中,中文农业领域规范词典包括农业领域的中文规范术语词,中文林木领域规范词典包括林木领域的中文规范术语词;之后利用国家标准、行业标准对中文农业领域规范词典和中文林木领域规范词典进行同义词和异名词补充,形成键值对形式的中文农业领域词典和中文林木领域词典;其中,键是农业领域或林木领域的中文规范术语词,值是农业领域或林木领域的中文规范术语词的义词和/或异名词补充列表。
3.根据权利要求1所述的应用于林木领域的跨领域中文命名实体识别方法,其特征在于,所述步骤S3的具体为方法为:
S3.1:分别对农业领域拼接句子和林木领域拼接句子进行向量化处理,获得农业领域拼接句子内容向量和林木领域拼接句子内容向量;
S3.2:分别对农业领域拼接句子和林木领域拼接句子进行位置编码,并进行向量化处理,获得农业领域拼接句子位置编码向量和林木领域拼接句子位置编码向量;
S3.3:将农业领域拼接句子内容向量与农业领域拼接句子位置编码向量进行拼接,获得农业领域拼接向量;将林木领域拼接句子内容向量与林木领域拼接句子位置编码向量进行拼接,获得林木领域拼接向量。
4.根据权利要求3所述的应用于林木领域的跨领域中文命名实体识别方法,其特征在于,所述步骤S3.1中,获得农业领域拼接句子内容向量和林木领域拼接句子内容向量的具体为方法为:
将第m个农业领域拼接句子记为则农业领域拼接句子集合为将第m个林木领域拼接句子记为则林木领域拼接句子集合为对农业领域拼接句子集合和林木领域拼接句子集合进行向量化处理:
WN=T(SN)
WL=T(SL)
式中,WN表示农业领域拼接句子内容向量集合,表示第m个农业领域拼接句子内容向量;WL表示林木领域拼接句子内容向量集合,表示第m个林木领域拼接句子内容向量;T表示字向量映射表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学;广州凡沙智能科技有限公司,未经广东工业大学;广州凡沙智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310129112.6/1.html,转载请声明来源钻瓜专利网。