[发明专利]字符串验证方法、字符串扩充方法与验证模型训练方法有效
申请号: | 201611243457.0 | 申请日: | 2016-12-29 |
公开(公告)号: | CN108228682B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 刘昭宏;阙志克;郭志忠;李崇汉;洪健咏 | 申请(专利权)人: | 财团法人工业技术研究院 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/35 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周天宇 |
地址: | 中国台湾新竹*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串 验证 方法 扩充 模型 训练 | ||
本发明提供了一种字符串验证方法、字符串扩充方法与验证模型训练方法,其中字符串验证方法包含下列步骤:撷取一个待验名称字符串。依据前述待验名称字符串产生一个待查询字符串。对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串。从前述至少一个回传字符串中撷取至少一笔特征数据。依据前述至少一笔特征数据与一个验证模型判断前述待验名称字符串的分类。
技术领域
本发明关于一种字符串验证方法、字符串扩充方法与验证模型训练方法。
背景技术
在以人工智能作文字分析处理的领域中,机器学习仰赖大量的训练文本。而文本内的字符串对应的意义也是机器所需要学习的基础知识。字符串往往有其分类,例如“恶魔四伏”指涉的是一部007系列的电影,而“恶魔高校”指涉的是一部小说。于这样的例子中,恶魔四伏与恶魔高校这样的字符串可分别被视为电影及小说此二类命名实体(NamedEntity)。具体来说,这样的字符串实际对应到一个特定的人、事、物等,并且属于各个不同的命名实体类型。
传统的命名实体辨识需仰赖训练文本的事前人工标记建构,而且命名实体的类型也需事先加以定义。因此若无此类已经标记好的文本,便无法进行命名实体的辨识工作。实际在应用上,若使用者仅提供一些词组、字符串或部分短句等就要做命名实体辨识的工作,在传统方法必须要有文本的前提下,很难加以应用。并且,传统的辨识方法只能根据前后文的特征来辨识出命名实体,但这些前后文特征为语言相依的,无法处理多种语言混杂的情形。现有具备命名实体辨识功能的产品大多都有地域性限制,不同地区因语系差异,无法一体适用,必须个别量身订做,且发展时程长,且对新类型的命名实体的辨识无法迅速因应,业务推展受到局限。
发明内容
综上所述,本发明旨在提供一种命名实体字符串的验证方法、扩充方法与验证模型的训练方法,以使得命名实体的辨识能自动化。
依据本发明一实施例的字符串验证方法,包含下列步骤:撷取一个待验名称字符串、依据前述待验名称字符串产生一个待查询字符串、对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串、从前述至少一个回传字符串中撷取至少一笔特征数据,依据前述至少一笔特征数据与验证模型判断前述待验名称字符串的分类。
依据本发明一实施例的字符串扩充方法,包含:从字符串库中的多个字符串中产生一个待查询字符串。对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串。分析前述回传字符串以扩充字符串库。
依据本发明一实施例的验证模型训练方法,包含:撷取属于第一分类的多个第一字符串。以前述多个第一字符串产生一个第一待查询字符串。对前述第一待查询字符串使用自动语汇推荐功能以取得至少一个第一回传字符串。依据前述第一待查询字符串与前述第一回传字符串,撷取用于验证第一分类的至少一笔第一特征数据。依据前述至少一笔第一特征数据,训练关于第一分类的验证模型。
综上所述,本发明提供的字符串验证方法、字符串扩充方法与验证模型训练方法,通过使用具备自动语汇推荐功能的系统,获取多数人使用来检索、搜寻的字符串等以作为字符串分类判断的基准。因此,字符串的分类与扩充得以自动化地进行。
附图说明
图1为用以实现本发明的方法的系统架构图。
图2为依据本发明一实施例的方法流程图。
图3为依据本发明一实施例的字符串扩充方法流程图。
图4为依据本发明一实施例的字符串扩充系统功能方块图。
图5为依据本发明一实施例的验证模型建立方法流程图。
附图标记说明
1000 字符串验证系统
1100、4100 输入模块
1110、4110 语言辨识单元
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院,未经财团法人工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611243457.0/2.html,转载请声明来源钻瓜专利网。