[发明专利]一种文本标注提取方法在审
申请号: | 202010942991.0 | 申请日: | 2020-09-09 |
公开(公告)号: | CN114238554A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 茅佳峰;侯宇泰;张晴;刘畅;车万翔;刘挺 | 申请(专利权)人: | 华为技术有限公司;哈尔滨工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 标注 提取 方法 | ||
1.一种文本标注提取方法,其特征在于,包括:
服务器接收电子设备发送第一标注请求;
响应于所述第一标注请求,所述服务器启动动态标注服务,其中,所述动态标注服务对应有第一动态标注模型,所述第一动态标注模型是通过带有第一标签的样本文本序列训练的;
所述服务器接收所述电子设备发送的第一文本序列以及所述第一文本序列对应的第一标注信息,其中,所述第一文本序列包括第一文本信息和第二标签,所述第一标注信息用于指示所述第一文本序列中带有所述第二标签的属性的文字在所述第一文本序列中的位置,所述第一标签和所述第二标签不同;
所述服务器获取第二文本序列;
当所述第一文本序列的数量大于第一阈值时,所述服务器通过所述第一动态标注模型,基于所述第一文本序列和所述第一标注信息,确定出所述第二文本序列的第二标注信息,所述第二标注信息用于指示所述第二文本序列中带有所述第二标签的属性的文字在所述第二文本序列中的位置;
所述服务器基于所述第二标注信息,提取出所述第二文本序列中带有所述第二标签的属性的文字。
2.根据权利要求1所述的方法,其特征在于,所述服务器通过所述第一动态标注模型,根据所述第一文本序列和所述第一标注信息,确定出所述第二文本序列的第二标注信息,具体包括:
所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第一文本序列中的带有所述第二标签属性的文字与不带有所述第二标签的属性的文字之间的转移概率,所述带有所述第二标签的属性的文字包括带有所述第二标签的属性的起始字和带有所述第二标签的属性的延续字;
所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第二文本序列中每一个字与带有所述第二标签的属性的文字和不带有所述第二标签的属性的文字之间发射概率;
所述服务器根据所述转移概率和所述发射概率,标注出所述第二文本序列的所述第二标注信息。
3.根据权利要求2所述的方法,其特征在于,所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第一文本序列中的带有所述第二标签属性的文字与不带有所述第二标签的属性的文字之间的转移概率,具体包括:
所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第一文本序列中的不带有所述第二标签属性的文字与不带有所述第二标签的属性的文字之间的第一转移次数、所述第一文本序列中的不带有所述第二标签属性的文字与带有所述第二标签的属性的起始字之间的第二转移次数、所述第一文本序列中的不带有所述第二标签属性的文字与带有所述第二标签的属性的延续字之间的第三转移次数、所述第一文本序列中带有所述第二标签属性的起始字与不带有所述第二标签的属性的文字之间的第四转移次数、所述第一文本序列中带有所述第二标签属性的起始字与带有所述第二标签的属性的起始字之间的第五转移次数、所述第一文本序列中带有所述第二标签属性的起始字与带有所述第二标签的属性的延续字之间的第六转移次数、所述第一文本序列中带有所述第二标签属性的延续字与不带有所述第二标签的属性的文字之间的第七转移次数、所述第一文本序列中带有所述第二标签属性的延续字与带有所述第二标签的属性的起始字之间的第八转移次数、所述第一文本序列中带有所述第二标签属性的延续字与带有所述第二标签的属性的延续字之间的第九转移次数;
所述服务器根据拉普拉斯平滑常数对所述第一转移次数、所述第二转移次数、所述第三转移次数、所述第四转移次数、所述第五转移次数、所述第六转移次数、所述第七转移次数、所述第八转移次数、所述第九转移次数去平滑观测值;
所述服务器根据去平滑观测值后的第一转移次数、去平滑观测值后的第二转移次数、去平滑观测值后的第三转移次数、去平滑观测值后的第四转移次数、去平滑观测值后的第五转移次数、去平滑观测值后的第六转移次数、去平滑观测值后的第七转移次数、去平滑观测值后的第八转移次数、去平滑观测值后的第九转移次数确定出所述第一文本序列中的带有所述第二标签属性的文字与不带有所述第二标签的属性的文字之间的转移概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;哈尔滨工业大学,未经华为技术有限公司;哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010942991.0/1.html,转载请声明来源钻瓜专利网。