[发明专利]一种文本标注方法及装置有效
申请号: | 201910679022.8 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110377743B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 徐安华;廉雨薇;路德龙;马瑞璇 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/216 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张秀英 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 标注 方法 装置 | ||
本发明提供了一种文本标注方法及装置,其中,该方法包括:获取待标注的目标文本以及待标注的目标属性;根据所述目标属性确定所述目标文本中待标注的目标对象,其中,所述目标对象包括至少两个目标关键词;对所述目标对象的目标属性通过关联的标注标识进行关联标注,其中,所述标注标识为与所述目标属性对应的标识,因此,可以解决相关技术中如何对文本中具有一定关联的两个以上关键词进行关联标注的问题,实现了多个关键词之间的关联标注。
技术领域
本发明涉及信息技术领域,具体而言,涉及一种文本标注方法及装置。
背景技术
机器了解人类的语言,一直以来是各界学者努力解决的问题。如果机器可以完全了解人类语言,并根据不同的情况给出合适的反馈,那么人工智能也将成为现实。人工智能作为一个广为人知的概念使大家对于机器解决各类问题抱有无限期待,然而,被多数人所不知的是,机器之所以智能都是源自于人工的信息输入,是大量的人工信息输入才使机器变得智能。
自然语言处理是人工智能的一个主要问题,自然语言处理通俗来讲就是让机器可以理解人类的文字、语音等各种表现形式的语言的含义。同样的,自然语言处理依旧需要大量的人工的信息输入作为机器学习的基础。
人工的信息输入并不是任何信息都可以,对文本领域来讲,人工的信息输入必须是标注过的信息,只有经过标注的数据对于机器来说才是有价值的人工的信息输入——也就是人们所常说的训练集,机器学习必须有一定量的训练集作为学习来源。
数据的标注其实就是按照人类的已具备的知识将数据进行标记、分类等操作。相当于做一份专属于机器的学习资料,让机器进行学习。
在由人工标注数据时,一般是由人工标注文本中每个词条的标签,在一种标签标注方法中,是对文本中每个关键词的属性进行标注,对于具有一定关联的两个以上关键词,如何进行标注,相关技术中并未提出解决方案。
针对相关技术中如何对文本中具有一定关联的两个以上关键词进行关联标注的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种文本标注方法及装置,以至少解决相关技术中如何对文本中具有一定关联的两个以上关键词进行关联标注的问题。
根据本发明的一个实施例,提供了一种文本标注方法,包括:
获取待标注的目标文本及待标注的目标属性;
根据所述目标属性确定所述目标文本中待标注的目标对象,其中,所述目标对象包括至少两个目标关键词;
对所述目标对象的目标属性通过关联的标注标识进行关联标注,其中,所述标注标识为与所述目标属性对应的标识。
可选地,在对所述目标对象的目标属性通过关联的标注标识进行关联标注之前,所述方法还包括:
获取所述目标对象的标注标识。
可选地,对所述目标对象的目标属性通过关联的标注标识进行关联标注包括:
在所述目标对象包括第一目标关键词和第二目标关键词的情况下,获取所述第一目标关键词的第一标注标识以及所述第二目标关键词的一个或多个第二标注标识;
在所述第二目标关键词对应一个第二标注标识的情况下,在所述第一目标关键词的第一预定位置显示与所述一个第二标注标识关联的第一标注标识;
在所述第二目标关键词对应多个第二标注标识的情况下,在所述第一目标关键词的第一预定位置显示分别与所述多个第二标注标识关联的多个第一标注标识,其中,一个所述第一标注标识关联一个所述第二标注标识,所述多个第二标注标识互不相同,所述多个第一标注标识互不相同。
可选地,根据所述目标属性确定所述目标文本中待标注的目标对象包括:
提取出所述目标文件中的目标关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910679022.8/2.html,转载请声明来源钻瓜专利网。