[发明专利]一种自动驾驶测试场景描述的自然语言语义库构建方法在审
申请号: | 202010462504.0 | 申请日: | 2020-05-27 |
公开(公告)号: | CN112016010A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 王赟芝;杜志彬;赵瑞文;周博林;陈蔯;赵启东;翟洋 | 申请(专利权)人: | 中汽数据有限公司;中国汽车技术研究中心有限公司;中汽数据(天津)有限公司 |
主分类号: | G06F16/9538 | 分类号: | G06F16/9538;G06F16/951;G06F16/955;G06F40/284 |
代理公司: | 天津企兴智财知识产权代理有限公司 12226 | 代理人: | 苏冲 |
地址: | 100176 北京市大兴区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 驾驶 测试 场景 描述 自然语言 语义 构建 方法 | ||
1.一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于包括以下步骤:
步骤1:应用爬虫程序对特定的网上资源进行爬取;
步骤2:将爬取到的信息资源地址链接的格式进行标准化处理,删除已经访问过的信息资源地址;
步骤3:应用布隆过滤器对重复抓取的内容进行处理;
步骤4:根据词性对获取到的文本分词切词以及标注等预处理;
步骤5:应用文本关键词排序算法对经过预处理的文本进行关键词排序;
步骤6:通过指向重要性、词性重要性、频度重要性三个维度改进获取到的文本中关键词权重分配比重,进而达到优化关键词排序结果;
步骤7:根据关键词排序结果调整权重分配,最终生成自动驾驶测试场景语义库。
2.根据权利要求1所述的一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于,步骤2中利用的对爬取到的信息资源地址链接的格式进行标准化处理包括以下步骤:
步骤a:URL协议名和主机名小写化;
步骤b:字符串转义序列转化为大写;
步骤c:删除信息片段;
步骤d:删除空查询串的‘?’;
步骤e:删除默认后缀;
步骤f:删除多余的点修复符;
步骤g:删除前缀“www”;
步骤h:删除取默认值的变量;
步骤i:删除多余的查询串;
步骤j:应用相似网页不同链接DUST处理法对URL进行处理。
3.根据权利要求1所述的一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于:步骤2中利用的对重复抓取的内容进行处理使,通过哈希函数,将抓取内容数据转换成哈希值,如果两篇内容的多位对应位的哈希值都为1,则可判定其内容相同或相似,对其中一篇的内容做删除处理。
4.根据权利要求1所述的一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于:步骤4中利用的对文本进行预处理是将文本根据句号进行完整语句分割,对于每一个句子根据词性进行分词和标注处理,并去掉标点符号及停用词。
5.根据权利要求1所述的一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于:步骤5、步骤6中利用的对文本关键词进行重要度排序,根据自动驾驶测试场景标准相关描述词语对输出结果进行审核,在输出结果不理想的情况下,调整其中的指向重要性、词性重要性、频度重要性的权重因子,并再次重新进行排序,最终获取内容重要度排序中靠前的关键词作为抽取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中汽数据有限公司;中国汽车技术研究中心有限公司;中汽数据(天津)有限公司,未经中汽数据有限公司;中国汽车技术研究中心有限公司;中汽数据(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010462504.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:从单元以及伺服驱动系统
- 下一篇:相变存储器