[发明专利]文本分类器训练数据的产生在审
申请号: | 202010315731.0 | 申请日: | 2020-04-21 |
公开(公告)号: | CN112749547A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | J·阿姆里特;E·斯基尔斯;W·麦克尼尔 | 申请(专利权)人: | 激发认知有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 章蕾 |
地址: | 美国得*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 训练 数据 产生 | ||
本申请案涉及文本分类器训练数据的产生。一种方法包含:接收指定文档语料库的文档中的所关注术语的输入,及确定代表目标词组的目标上下文嵌入,所述目标词组包含所述所关注术语及位于所述文档中靠近所述所关注术语的上下文词。所述方法还包含从所述文档语料库当中标识在语义上类似于所述目标词组的第一候选词组及在语义上不类似于所述目标词组的第二候选词组。所述方法进一步包含接收用户输入,所述用户输入将所述第一候选词组的至少一部分标识为与第一标记相关联,并将所述第二候选词组的至少一部分标识为未与所述第一标记相关联。所述方法还包含基于所述用户输入产生经标记训练数据以训练文本分类器。
技术领域
本申请案涉及文本分类器。
背景技术
文本分类器是一种数据模型,其用于评估文本并将标记指派到文本,以将文本与一或多个类别相关联。举例来说,文本分类器可用于将文档(或另一文本样本)分类为主题类别,例如“传记”、“神秘”、“地质”、“宗教”等。
文本分类器通常是领域特定的。举例来说,可针对与特定主题相关或由特定实体拥有或操持的第一数据集定制第一文本分类器,且可针对与不同主题相关或由不同实体拥有或操持的第二数据集定制第二文本分类器。此类文本分类器的定制性质是归因于例如使用文本分类器或数据集的实体的不同关注及重点,是归因于数据集的固有差异,或两者兼而有之。
通常使用有监督机器学习技术及经标记训练数据来训练文本分类器。对于定制文本分类器,产生合适经标记训练数据可能有挑战性。举例来说,如果使用一组合适代表性经标记样本来训练文本分类器,那么文本分类器通常更可靠。还可通过为一些标记提供肯定及否定样本两者来改进可靠性。在此上下文中,肯定样本是应与特定标记相关联的样本,且否定样本是不应与特定标记相关联的样本。
对于既不熟悉数据集又不熟悉实体目标的人来说,使用文本分类器来适当地标记数据样本可能会很困难。既熟悉数据集又熟悉实体目标的主题专家可用来标记文本样本以产生经标记训练数据;然而,此类主题专家常常是高级的、高技能的员工或外部专家,其进行例如阅读文本及指派标记或在数据集中搜索代表性文本样本的任务所花费的时间是昂贵的。
发明内容
本文中描述用于简化产生针对文本分类器的训练数据的系统及方法的特定实施方案。特定系统通过辅助用户标识类似于经标记文本样本的其它文本样本以便标记肯定样本、否定样本或两者来简化经标记训练数据的产生。
在特定方面中,一种用于产生用于文档语料库的文本分类器的系统包含一或多个处理器及耦合到所述一或多个处理器的一或多个存储器装置。所述一或多个存储器装置存储可由所述一或多个处理器执行以执行操作的指令,所述操作包含接收指定所述文档语料库的文档中的所关注术语的输入。所述操作还包含确定代表所述所关注术语的目标术语嵌入,及基于所述目标术语嵌入与代表来自所述文档语料库的术语的术语嵌入之间的距离,确定所述文档语料库是否包含在语义上类似于所述所关注术语的一或多个术语。所述操作进一步包含确定代表目标词组的目标上下文嵌入。所述目标词组包含所述所关注术语及位于所述文档中靠近所述所关注术语的上下文词。所述操作还包含基于所述目标上下文嵌入与在语义上类似于所述目标词组的第一候选词组的上下文嵌入之间的距离,从所述文档语料库当中标识所述第一候选词组。所述操作进一步包含基于所述目标上下文嵌入与在语义上不类似于所述目标词组的第二候选词组的上下文嵌入之间的距离,从所述文档语料库的包含所述所关注术语或语义类似术语的词组当中标识所述第二候选词组。所述操作包含经由用户界面呈现包含所述第一候选词组及所述第二候选词组的输出,及经由所述用户界面接收用户输入。所述用户输入将所述第一候选词组的至少一部分标识为与第一标记相关联,并将所述第二候选词组的至少一部分标识为未与所述第一标记相关联。所述操作还包含基于所述用户输入产生经标记训练数据以训练所述文本分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于激发认知有限公司,未经激发认知有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010315731.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置