[发明专利]基于序列标注命名实体识别的智能成本度量方法和装置有效
申请号: | 202310574954.2 | 申请日: | 2023-05-22 |
公开(公告)号: | CN116342167B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 张旸旸;李文鹏;刘北辰;苏伟;车江涛;冯宽;福德鹏;张文渊 | 申请(专利权)人: | 中国电子技术标准化研究院 |
主分类号: | G06Q30/0201 | 分类号: | G06Q30/0201;G06F40/211;G06F40/295;G06F40/30;G06F16/35;G06N3/0455;G06N3/0442 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 薛平;郝博 |
地址: | 100007 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 序列 标注 命名 实体 识别 智能 成本 度量 方法 装置 | ||
1.一种基于序列标注命名实体识别的智能成本度量方法,其特征在于,包括:
S101,利用预设行业语料库将需求文档以句子为单位进行Nesma功能点识别和字序列标签分类标注,确定输入数据;
S102,根据输入数据,获取句子的序列特征,确定多维向量矩阵;
S103,根据多维向量矩阵,获取句子序列的正向特征和逆向特征,确定句子序列上下文特征向量矩阵;
S104,根据句子序列上下文特征向量矩阵,识别上下文特征向量中的各个子序列组合构成实体的概率,确定实体预测结果;
S105,根据实体预测结果,确定成本预测结果;
其中,S101,利用预设行业语料库将需求文档以句子为单位进行Nesma功能点识别和字序列标签分类标注,确定输入数据,包括:
S201,利用预设行业语料库将按照文档目录结构识别需求文档章节对应的文本内容,对文本内容进行数据清洗,以分隔符为单位进行拆分,确定句子;
S202,以标签形式标注出句子的Nesma功能点交易处理类型;
S203,对Nesma功能点交易处理类型进行字序列标签分类标注,确定输入数据;
其中,S202,以标签形式标注出句子的Nesma功能点交易处理类型,包括:
S301,建立种子关键词库;所述种子关键词库内包括有分行业专用术语词语和通用行为动词;
S302,通过语义分析按照词性提取句子中的关联词汇;
S303,将关联词汇与种子关键词库进行匹配;
S304,若匹配到行为动词,则根据上下文寻找关联的行业专用术语词语,确定句子的Nesma功能点交易处理类型;所述句子的Nesma功能点交易处理类型,包括:外部输入,外部输出,外部查询,内部逻辑文件,外部逻辑文件;所述外部输入、外部输出和外部查询属于交易处理类实体,所述内部逻辑文件和外部逻辑文件属于数据文件类实体;
其中,S203,对Nesma功能点交易处理类型进行字序列标签分类标注,确定输入数据,包括:
S401,根据Nesma功能点交易处理类型,确定BIO标注子类型;
S402,根据BIO标注子类型,对Nesma功能点交易处理类型进行BIO规则下的字序列标签分类标注,建立以字为单位的序列标签分类,确定输入数据;所述BIO规则,包括:用B标注实体词的开始字,用I标注实体词的中间字或结尾字,用O标注不属于实体词;
其中,S102,根据输入数据,获取句子的序列特征,确定多维向量矩阵,包括:
将输入数据输入预训练的Roberta模型获取句子的序列特征,确定多维向量矩阵;
所述Roberta模型的预训练过程,包括:掩码语言模型任务,次句预测任务;
所述掩码语言模型任务,包括:对输入的句子以第一概率随机掩藏任意词语作为输入端的噪音,在对Roberta模型进行预训练的过程中通过上下文信息预测被随机掩藏的词语;所述随机掩藏任意词语,包括:以第二概率将词语替换为预设字符,以第三概率将词语替换为词典中的其他词汇,以第四概率不做替换;其中,所述第二概率、第三概率和第四概率的和等于第一概率;
所述次句预测任务,包括:在语料库中选择多个句子,以预测句子之间是否为前后句关系为目标对Roberta模型进行预训练;在选择的多个句子中,一半为从文本内容中随机选择的句子,另一半为文本内容中前后相邻的句子;
其中,将输入数据输入预训练的Roberta模型获取句子的序列特征,确定多维向量矩阵,包括:
S501,将输入数据导入多头自注意力层,将输入数据的句子按字转换为多维向量,组成第一矩阵;所述第一矩阵具有初始值;
S502,设定输入数据中最大句子长度为第一值,对不满足第一值的句子采用补零的方式进行补位,将第一矩阵从初始值补充至预设值;
S503,根据句子中每个字的位置,添加位置向量;所述位置向量的维度与处于预设值的第一矩阵的维度相等;
S504,将位置向量与处于预设值的第一矩阵中的多维向量相加,确定第二矩阵;
S505,将第二矩阵与权重矩阵相乘,确定多个子权重矩阵;
S506,将多个子权重矩阵拼接后乘以附加权重矩阵,确定注意力向量结果;所述注意力向量结果的维度与处于预设值的第一矩阵的维度相等;
S507,将注意力向量结果经过两个残差连接层和正则化层以及前馈神经网络层处理,得到最终句子向量;所述正则化层用于进行标准化处理;所述最终句子向量的维度与处于预设值的第一矩阵的维度相等;
S508,将多个编码器对应的最终句子向量进行堆叠,确定多维向量矩阵;
其中,S104,根据句子序列上下文特征向量矩阵,识别上下文特征向量中的各个子序列组合构成实体的概率,确定实体预测结果,包括:
根据句子序列上下文特征向量矩阵,利用预训练的条件随机场深度学习模型,通过数据学习标签转移关系和预设约束条件,识别上下文特征向量中的各个子序列中的实体标签序列,得到实体标签序列组合构成实体的概率,确定实体预测结果;所述标签转移关系为标签之间的关系路径;所述预设约束条件,包括:文本首个单词的实体标签以B标注或I标注开头,命名实体的首个标签以B标注开头;
其中,S105,根据实体预测结果,确定成本预测结果,包括:
根据实体预测结果,统计Nesma功能点交易处理类型对应的数量;
根据Nesma功能点交易处理类型对应的数量,确定Nesma功能点规模;
根据Nesma功能点规模, 结合生产率、软件因素调整因子、开发因素调整因子、人力成本费率、直接非人力成本和月工作人时数,确定成本预测结果;
其中,按如方式,确定Nesma功能点规模:
S = a*ILF + b*ELF + c*EI+ d*EO+ e*EQ
其中,S为Nesma功能点规模;ILF为内部逻辑文件的数量;ELF为外部逻辑文件的数量;EI为外部输入的数量;EO为外部输出的数量;EQ为外部查询的数量;a为内部逻辑文件类型对应的复杂性程度系数;b为外部逻辑文件类型对应的复杂性程度系数;c为外部输入类型对应的复杂性程度系数;d为外部输出类型对应的复杂性程度系数;e为外部查询类型对应的复杂性程度系数;*为乘;
其中,按如方式,确定成本预测结果:
SDC=((S*PDR)*SWF*RDF) / M * F + DNC
其中,SDC为成本预测结果;S为Nesma功能点规模;PDR为生产率;SWF为软件因素调整因子;RDF为开发因素调整因子;F为人力成本费率;DNC为直接非人力成本;M为月工作人时数;*为乘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子技术标准化研究院,未经中国电子技术标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310574954.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于电磁定位的活检系统及导航方法
- 下一篇:一种建筑模板及其安装方法