[发明专利]一种个股公告分类的方法、系统及设备在审
申请号: | 201811613626.4 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109741190A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 赵岑;陈世敏;冯采;张小平;罗广超 | 申请(专利权)人: | 清华大学 |
主分类号: | G06Q40/06 | 分类号: | G06Q40/06;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类模型 分类 测试集 测试 训练集 申请 计算机可读存储介质 系统及设备 测试通过 目标类型 再利用 预设 决策 | ||
本申请公开了一种个股公告分类的方法,包括:根据接收到的分类样例建立训练集和测试集;利用训练集对预设模型进行训练,得到分类模型;利用测试集对分类模型进行测试,并判断分类模型是否通过测试;若是,则利用分类模型对接收到的个股公告进行分类。本申请所提供的技术方案,通过先利用测试集对得到的分类模型进行测试,并判断分类模型是否通过测试,当测试通过时,再利用分类模型对接收到的个股公告进行分类,以得到分类后的各类个股公告,方便用户快速准确的获取到目标类型的个股公告中的信息,进而便于用户做出相应决策。本申请同时还提供了一种个股公告分类的系统、设备及计算机可读存储介质,具有上述有益效果。
技术领域
本申请涉及个股公告分类领域,特别涉及一种个股公告分类的方法、系统、设备及计算机可读存储介质。
背景技术
个股公告是上市公司最权威、最及时的信息展示窗口,其内容很可能会对投资者判断公司基本面,产生重要影响。个股公告中往往包括各类精确、客观的数据信息,重要时间段及时间节点信息,很多事项的进展、运作、实施的前提条件等。
针对于所公开的事件类型不同,个股公告中的内容也不尽相同,个股公告的类型大致可以包括业绩公告、股东高管任免公告、资产重组公告和会议召开公告等类型;对于投资者来说,快速准确的获取到个股公告中的信息显得尤为重要,而随着互联网技术的发展,互联网上的信息量呈爆炸式增长,各种类型的个股公告混杂在一起,这使得用户无法快速准确的获取到目标类型的个股公告中的信息。
因此,如何对个股公告进行分类是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种个股公告分类的方法、系统、设备及计算机可读存储介质,用于对个股公告进行分类。
为解决上述技术问题,本申请提供一种个股公告分类的方法,该方法包括:
根据接收到的分类样例建立训练集和测试集;
利用所述训练集对预设模型进行训练,得到分类模型;
利用所述测试集对所述分类模型进行测试,并判断所述分类模型是否通过测试;
若是,则利用所述分类模型对接收到的个股公告进行分类。
可选的,在利用所述分类模型对接收到的个股公告进行分类之前,还包括:
依据预设金融辞典对各所述个股公告进行分词处理对应得到各文本文件;
将各所述文本文件作为训练语料对词向量文件进行训练;
从所述词向量文件中提取出相似程度在第一阈值以上的词语并输出,以使用户对各所述相似程度在第一阈值以上的词语进行人工标注;
当接收用户输入的第一标注文件时,解析所述第一标注文件得到各同义词语,并将各所述文本文件中的同义词语进行替换。
可选的,所述预设金融辞典的建立过程包括:
在接收到的样例文件中提取出高频词汇及重要词语并输出,以使用户对所述及所述进行人工标注;
当接收用户输入的第二标注文件时,根据所述第二标注文件建立jieba分词的用户自定义辞典;
当接收用户输入的用户金融辞典时,为所述用户金融词典中的词语设置词频,并根据所述用户金融辞典对所述用户自定义辞典进行补充,得到所述预设金融辞典。
可选的,在利用所述分类模型对接收到的个股公告进行分类之前,还包括:
提取各所述个股公告的标题中的频繁子集;
获取各所述频繁子集中的关键字在各所述个股公告的正文中出现的频率,并按照各所述频率对各所述关键字进行排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811613626.4/2.html,转载请声明来源钻瓜专利网。