[发明专利]一种文本词性标注的方法及装置有效
申请号: | 201910817945.5 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110532391B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 李金锋;杨绳春;洪文龙 | 申请(专利权)人: | 网宿科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F40/289;G06N20/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 张怀阳 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 词性 标注 方法 装置 | ||
本发明公开了一种文本词性标注的方法及装置,该方法包括确定用户设置的词性,获取用户从语句中选中的第一类词,依据选中的第一类词将语句分为多个语段进行存储,并将选中的第一类词的词性标注为用户设置的词性并进行显示。依据用户设置的词性对用户从语句中选中的第一类词进行标注词性,可以对相同词性的词一次性快速标注,有效的提高词性标注的效率,并且依据第一类词将语句分为多个语段进行存储,可以保持语句中各语段的有序性,并且对选中的第一类词的词性进行显示,直观,且便于发现标注错误。
技术领域
本发明实施例涉及机器学习技术领域,尤其涉及一种文本词性标注的方法及装置。
背景技术
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
而机器在进行训练时,为了提升语言处理的准确性,往往需要人工帮忙对重要文本进行词性标注。而传统的工具实现方式,都是直接给出一句话,让标注人员手动键入相关的词并进行打标注。这样不但效率低,而且打标注的词是无序的,如果一句话中的某个词连续出现了两次,且词性不一样,那么将无法区分。
发明内容
本发明实施例提供一种文本词性标注的方法及装置,用以提高词性标注的效率。
第一方面,本发明实施例提供一种文本词性标注的方法,包括:
确定用户设置的词性;
获取用户从语句中选中的第一类词;
依据所述选中的第一类词将所述语句分为多个语段进行存储,并将所述选中的第一类词的词性标注为所述用户设置的词性并进行显示。
上述技术方案中,依据用户设置的词性对用户从语句中选中的第一类词进行标注词性,可以对相同词性的词一次性快速标注,有效的提高词性标注的效率,并且依据第一类词将语句分为多个语段进行存储,可以保持语句中各语段的有序性,并且对选中的第一类词的词性进行显示,直观,且便于发现标注错误。
可选的,在将所述选中的第一类词的词性标注为所述用户设置的词性并进行显示之后,还包括:
获取用户修改的词性以及用户选中的第二类词;
依据所述第二类词将所述第二类词所在的语段分为多个语段进行存储,并将所述第二类词的词性标注为所述用户修改的词性。
上述技术方案中,通过获取用户修改的词性,对第二类词进行词性标注,可以实现快速的变换设置的词性,到达对不同词性的词进行标注的目的。
可选的,所述依据所述选中的第一类词将所述语句分为多个语段进行存储,并将所述选中的第一类词的词性标注为所述用户设置的词性并进行显示,包括:
以所述选中的第一类词为分割线,将所述语句分为多个语段进行排序存储;
将选中的第一类词的词性标注为所述用户设置的词性,并将标注的词性显示在所述语句中。
上述技术方案中,以第一类词为分割线,将语句分为多个语段进行排序存储,可以使得语句中各语段保持有序性,提高词性标注的准确性。
可选的,在将所述选中的第一类词的词性标注为所述用户设置的词性并进行显示之后,还包括:
将标注为所述用户设置的词性的词设置为相同的背景色;
其中,不同词性的词对应的背景色不同。
上述技术方案中,标注词性之后还可以设置背景色,以实现区别不同词性的词。
可选的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910817945.5/2.html,转载请声明来源钻瓜专利网。