[发明专利]一种语料标注方法、装置和系统在审
申请号: | 201510585489.8 | 申请日: | 2015-09-15 |
公开(公告)号: | CN105243052A | 公开(公告)日: | 2016-01-13 |
发明(设计)人: | 刘福明;杨培强 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 标注 方法 装置 系统 | ||
技术领域
本发明涉及计算机领域,特别涉及一种语料标注方法、装置和系统。
背景技术
对于当前的互联网大数据时代来说,数据的重要性不言而喻,其中,自然语言处理是理解数据的重要技术,而在自然语言处理需要对语料进行标注。现有的语料标注方法主要分为两类,一类是由专职标注员对语料进行标注,由于需要标注的语料众多,人工进行语料标注效率较低。另一类是借助语料词典采用标注服务器对语料进行自动标注,虽然相较于人工标注,该自动标注一定程度上提高了标注效率,但是随着语料词典的扩充,该语料词典占用内存增加,导致自动标注效率降低。
发明内容
本发明提供一种语料标注方法、装置和系统,从而提高自动标注效率。
一种语料标注方法,确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,形成各个子语料词典,并将每一个子语料词典分配给对应的应用服务器;还包括:
确定目标语句;
控制每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;
判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。
优选地,上述方法进一步包括:设置语料片段阈值;
在所述形成各个子语料词典之后,在所述确定目标语句之前,进一步包括:根据所述语料片段阈值,将每一个子语料词典分为各个语料片段;
所述将每一个子语料词典分配给对应的应用服务器包括:将所述各个语料片段中每一个语料片段分配给对应的应用服务器;
所述控制每一个应用服务器中当前应用服务器执行根据所述各个子语料词典,对所述目标语句进行实体词的匹配,包括:控制每一个应用服务器,执行根据分配的语料片段,对所述目标语句进行实体词的匹配。
优选地,在所述控制每一个应用服务器,执行根据分配的语料片段,对所述目标语句进行实体词的匹配之后,在所述判断目标语句匹配后的各个实体词中第一实体词是否包含第二实体词之前,进一步包括:
对于所述每一个应用服务器,控制当前应用服务器输出当前应用服务器中的语料片段对应的key-value对,其中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;
将每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为所述当前子语料词典形成与目标语句对应的实体词集合;
所述判断目标语句中匹配后的各个实体词中第一实体词是否包含第二实体词,包括:判断所有实体词集合中的第一实体词是否包含第二实体词。
优选地,上述方法进一步包括:接收对标注后的实体词的修订,并根据修订后的实体词的类型,将所述修订后的实体词添加到相应类型的子语料词典中。
优选地,所述确定数据词典,包括:确定一行一词的文本文件,利用双数组Trie树加载所述文本文件,构建数据词典。
优选地,所述各个子语料词典,包括:
人名子语料词典、地名子语料词典和机构名子语料词典中的任意一个或多个。
一种语料标注的装置,包括:
生成单元,用于确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,生成各个子语料词典;
分配单元,用于将所述生成单元生成的各个子语料词典中每一个子语料词典分配给对应的外设的应用服务器;
控制匹配单元,用于确定目标语句,控制外设的每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;
标注单元,用于判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。
优选地,上述装置进一步包括:设置单元,其中,
所述设置单元,用于设置语料片段阈值;
所述生成单元,进一步用于根据所述设置单元设置的所述语料片段阈值,将每一个子语料词典分为各个语料片段;
所述分配单元,用于将所述各个语料片段中每一个语料片段分配给对应的外设的应用服务器;
所述控制匹配单元,用于控制外设的每一个应用服务器执行根据分配的语料片段,对所述目标文本中的每一个语句进行实体词的匹配。
优选地,上述装置进一步包括:控制输出单元和合并单元,其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510585489.8/2.html,转载请声明来源钻瓜专利网。