[发明专利]一种数据处理方法、装置、存储介质和电子设备在审

申请号：	201811568386.0	申请日：	2018-12-21
公开（公告）号：	CN109800287A	公开（公告）日：	2019-05-24
发明（设计）人：	齐乔松	申请（专利权）人：	出门问问信息科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/9535
代理公司：	北京睿派知识产权代理事务所(普通合伙) 11597	代理人：	刘锋
地址：	100190 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网站存储介质电子设备网页数据数据处理作品词语语音请求词库分类中文更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种数据处理方法、装置、存储介质和电子设备。本发明实施例通过连接作品源网站，获取所述作品源网站的网页数据，并根据所述作品源网站的网页数据获取作品名称列表，以获得包含特定特征的名称词语列表。进而，根据获得的名称词语列表对词库中文本的特征进行更新。能够提高对语音请求分类的准确性。

技术领域

本发明涉及数据处理领域，尤其涉及一种数据处理方法、装置、存储介质和电子设备。

背景技术

自然语言理解(Nature Language Understanding，NLU)技术作为一种崭新的人机交互方式，引发了人们的广泛关注。自然语言理解是研究如何让电脑读懂人类的语言，是自然语言处理(Nature Language Processing，NLP)中最困难的一项，旨在用结构化的信息来表示人类的语言。领域分类(Domain Classification)是NLU中结构化表示文本的一环，根据语义协议，事先将自然语言全集划分为多个领域，如天气、问答、导航等，NLU在领域分类环节使用多分类模型将自然语言自动化分到各个领域中去。

语音请求是人机交互过程中最常见的请求之一，在手机语音助手、电视语音助手与车载语音助手中尤为常见。然而，将请求正确分类与结构化处理非常困难。

发明内容

有鉴于此，本发明实施例提供了一种数据处理方法、装置、存储介质和电子设备，能够提高对语音请求分类的准确性。

第一方面，本发明实施例提供一种数据处理方法，所述方法包括：

连接作品源网站，获取所述作品源网站的网页数据；

根据所述作品源网站的网页数据获取作品名称列表；

根据作品名称列表和预定的黑名单确定名称词语列表；

根据所述名称词语列表更新词库中文本的特征，所述词库用于辅助自然语言学习模型解析语音请求。

优选地，所述根据所述作品源网站的网页数据获取作品名称列表包括：

获取作品名称字符串；

确定字符串中的异常值；

清洗包含异常值的字符串以获取作品名称列表。