[发明专利]用于生成信息的方法和装置在审
申请号: | 201711214477.X | 申请日: | 2017-11-28 |
公开(公告)号: | CN107832305A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 鄢胜利;尹存祥;雍倩;韦庭;黎爱坤;王璐;刘俐岑;吴伟佳 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 信息 方法 装置 | ||
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于生成信息的方法和装置。
背景技术
文本情感分析(也称为意见挖掘)是指用自然语言处理,文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。在一些场景下(例如民调监测、舆情监测、趋势预警等等)需要监测基于目标关键词所获取数据(例如微博数据、新闻数据、贴吧数据等等)的情感倾向,主要分为正面、中性和负面。现阶段,可以基于有监督的学习方法建立情感分析模型,按照有监督的学习方法需要对大量数据进行标注,使得情感词、句式等尽可能的分布广,从而使得训练效果更佳,但是对大量数据进行标注需要消费大量的人力和物力。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,包括:根据目标关键词获取待分析信息;将上述待分析信息输入预先建立的情感分析模型,生成上述待分析信息的情感倾向信息,上述情感分析模型是通过以下训练步骤得到的:获取无标签样本数据和有标签样本数据;使用预先建立的标签生成模型生成上述无标签样本数据对应的标签信息,将上述无标签样本数据和生成的标签信息作为扩展样本数据,其中,上述标签信息包括第一标签、第二标签和第三标签,其中,上述标签生成模型用于表征无标签样本数据与标签信息之间的对应关系;使用上述有标签样本数据和上述扩展样本数据训练得到上述情感分析模型。
在一些实施例中,上述标签生成模型包括第一标签生成模型、第二标签生成模型和第三标签生成模型;以及上述使用预先建立的标签生成模型生成上述无标签样本数据对应的标签信息,包括:响应于确定上述第一标签生成模型、上述第二标签生成模型和上述第三标签生成模型中的至少两个标签生成模型针对上述无标签样本数据生成的标签信息相同,将上述至少两个标签生成模型针对上述无标签样本数据生成的标签信息作为上述无标签数据的标签信息。
在一些实施例中,上述方法还包括训练上述第一标签生成模型、上述第二标签生成模型和上述第三标签生成模型的步骤,包括:对上述有标签样本数据中的文本信息进行分词处理,得到至少一个分词,其中,上述有标签样本数据包括文本信息和与上述文本信息对应的标签信息;根据上述至少一个分词得到第一词语集合,将上述第一词语集合对应的特征向量作为输入,将与上述文本信息对应的标签信息作为输出,训练初始文本分类器,得到上述第一标签生成模型;从上述至少一个分词中提取情感词组成第二词语集合,将上述第二词语集合对应的特征向量作为输入,将与上述文本信息对应的标签信息作为输出,训练初始文本分类器,得到上述第二标签生成模型;从上述至少一个分词中提取非情感词组成第三词语集合,将上述第三词语集合对应的特征向量作为输入,将与上述文本信息对应的标签信息作为输出,训练初始文本分类器,得到上述第三标签生成模型。
在一些实施例中,上述方法还包括:使用上述扩展样本数据更新上述第一标签生成模型、上述第二标签生成模型和上述第三标签生成模型。
在一些实施例中,上述情感分析模型为深度神经网络;以及使用上述有标签样本数据和上述扩展样本数据训练得到上述情感分析模型,包括:将上述有标签样本数据中的文本信息作为输入样本,将与上述文本信息对应的标签信息作为输出样本,其中,上述有标签样本数据包括文本信息和与上述文本信息对应的标签信息;将上述扩展样本数据中的无标签样本数据作为输入样本,将生成的、与上述无标签样本数据对应的标签信息作为输出样本;使用输入样本和输出样本训练初始深度神经网络,得情感分析模型。
在一些实施例中,上述使用输入样本和输出样本训练初始深度神经网络,得到上述情感分析模型,包括:使用预先设定的测试数据集合中的测试数据对得到的情感分析模型进行性能评估;根据性能评估结果确定得到的情感分析模型是否为最终情感分析模型。
第二方面,本申请实施例提供了一种用于生成信息的装置,包括:获取单元,用于根据目标关键词获取待分析信息;生成单元,用于将上述待分析信息输入预先建立的情感分析模型,生成上述待分析信息的情感倾向信息,其中,上述生成单元包括:数据获取单元,用于获取无标签样本数据和有标签样本数据;标签信息生成单元,用于使用预先建立的标签生成模型生成上述无标签样本数据对应的标签信息,将上述无标签样本数据和生成的标签信息作为扩展样本数据,其中,上述标签信息包括第一标签、第二标签和第三标签,其中,上述标签生成模型用于表征无标签样本数据与标签信息之间的对应关系;训练单元,用于使用上述有标签样本数据和上述扩展样本数据训练得到上述情感分析模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711214477.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置