[发明专利]利用遗传编程的命名实体识别和提取在审
申请号: | 202080001341.4 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111758098A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 王德胜;刘佳伟;章鹏 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/12;G06F16/903 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 遗传 编程 命名 实体 识别 提取 | ||
1.一种计算机实现的方法,所述方法包括:
接收多个第一数据串;
从所述多个第一数据串中识别出字符的子字符串;
至少部分地基于所述多个第一数据串获得候选程序的第一群体,所述子字符串被表示为所述候选程序的第一群体中的候选程序中的单个单元;
通过对所述候选程序的第一群体进行迭代遗传操作来生成候选程序的第二群体,所述迭代遗传操作包括使用适应度函数和所述多个第一数据串计算所述候选程序的第二群体中的每个候选程序的适应度得分,所述适应度函数评估候选程序与所述多个第一数据串的匹配率;以及
使用所述候选程序的第二群体中的第一候选程序从数据流中提取多个第二数据串。
2.如权利要求1所述的方法,其中:
所述候选程序的第一群体包括第一数量的候选程序,
所述候选程序的第二群体包括第二数量的候选程序,并且
所述第二数量是从所述第一数量减少而来的。
3.如权利要求2所述的方法,其中,所述第二数量是遵循指数衰减算法、线性衰减算法或交错衰减算法中的一个或多个从所述第一数量减少而来的。
4.如权利要求3所述的方法,还包括为所述第二群体设置候选程序的最小数量。
5.如权利要求1所述的方法,其中,所述适应度函数针对所述多个第一数据串的数据串长度来评估候选程序的长度。
6.如权利要求5所述的方法,其中,所述多个第一数据串包括第一正示例数据串集,其中每个正示例数据串表示命名实体识别任务的目标数据类别,并且所述适应度函数针对所有所述第一正示例数据串集的平均长度来评估所述候选程序的长度。
7.如权利要求1所述的方法,其中:
所述多个第一数据串包括第一正示例数据串集和第二负示例数据串集,所述第一正示例数据串集中的每个正示例数据串表示命名实体识别任务的目标数据类别,所述第二负示例数据串集中的每个负示例数据串表示并非所述目标数据类别的数据类别;并且
所述适应度函数评估所述第一正示例数据串集中与候选程序完全匹配的正示例数据串的第一数量,以及所述第二负示例数据串集中与所述候选程序完全匹配的负示例数据串的第二数量。
8.如权利要求1所述的方法,其中:
所述多个第一数据串包括第一正示例数据串集和第二负示例数据串集,所述第一正示例数据串集中的每个正示例数据串表示命名实体识别任务的目标数据类别,所述第二负示例数据串集中的每个负示例数据串表示并非所述目标数据类别的数据类别;并且
所述适应度函数评估所述第一正示例数据串集中与候选程序匹配的字符的第一数量,以及所述第二负示例数据串集中与所述候选程序匹配的字符的第二数量。
9.如权利要求1所述的方法,还包括:
获得多个第三数据串,所述多个第三数据串是所述多个第二数据串的子集;以及
通过使用所述多个第三数据串对所述候选程序的第二群体进行所述迭代遗传操作来生成第二候选程序。
10.如前述任一权利要求所述的方法,还包括:
将所述多个第一数据串分组为第一组数据串和至少一个第二组数据串;以及
使用所述第一组数据串或所述至少一个第二组数据串中的每个数据串对所述候选程序的第一群体分别进行所述迭代遗传操作。
11.如前述任一项权利要求所述的方法,其中,所述迭代遗传操作包括交叉繁殖操作和变异操作。
12.如前述任一项权利要求所述的方法,其中,所述候选程序的第一群体或所述候选程序的第二群体中每个群体中的候选程序为正则表达式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080001341.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:3D NAND闪速存储器件及其集成方法
- 下一篇:半导体装置和其制作方法