[发明专利]医疗咨询信息聚合分析方法有效
申请号: | 201811211126.8 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109448857B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 张静;彭宴辉;陈立夏 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/35 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 王玮 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 咨询 信息 聚合 分析 方法 | ||
本发明公开了一种医疗咨询信息聚合分析方法,包括以下步骤:步骤1:利用网络爬虫技术手段获取现有的医疗健康咨询网站上的“问题‑答案‑医生”三元组形式的医疗信息;步骤2:将文本格式的医疗信息转化为基于实体的结构化数据;步骤3:计算结构化的问题之间的相似度,合并相似度高的问题以扩大问题的答案集;步骤4:利用迭代的方式计算答案的可信度,得到“问题‑答案‑可信度”形式的医疗知识。本发明以无监督的方式计算出医生的医疗知识水平和答案的可靠程度,节省了大量资金和时间成本,从而得到宝贵的医疗知识。
技术领域
本发明涉及医疗咨询领域,具体地说,是一种医疗咨询信息聚合分析方法。
背景技术
随着社会经济的发展,人们的生活水平越来越高,对身体健康也更加关注,对权威健康信息的需求迫切增长。近年来,互联网、移动互联网等技术发展迅速、人们深度参与网络知识生产和在线社交,涌现出一大批在线问答咨询应用系统。其中,医疗众包问答网站因为可以方便的对病患进行及时初诊而受到广大用户的欢迎。在国外,如美国的medhelp.org,国内有寻医问药(xywy.com)、百度拇指医生(muzhi.baidu.com)等。在这些中,有数百万注册用户和数十万名注册医生,用户在线向网站输入自己的医疗问题,医生收到问题,根据患者情况给出诊断或治疗建议。这些医疗问答网站提供的多是多对多服务,即一名用户提出的问题会由多名医生来回答,而一名医生又对多个问题进行回答,所以这种服务模式下,医疗信息的增长速度非常快,例如,寻医问药网站中,每分钟就会有上百条问题提出,而每个问题都会产生多个答案,可见其信息产生速度之快。
在线医疗数据巨量增长,但是隐含在这些数据背后的医疗知识却无法有效甄别和提取,主要体现在医生的水平参差不齐,一条咨询问题的答案质量也有差别。如果能够更好地发现和利用这些知识将是一笔宝贵的财富。
计算对答案的可信度以及医生的知识水平有几个问题需要解决。第一,真值发现方法,为了计算答案的可信度以及医生的知识水平,一种可能的办法是标注答案的质量,然后学习分类或回归模型,但是,这是一个专业度比较高的领域,一般的工人无法对样本进行有效的标注,需要有一定医疗知识的工人去标注样本,这样就加大了标注的成本,所以,人工标注的监督学习方式在此问题上成本太高,甚至无法实现;第二,噪声输入的净化问题,医疗咨询网站上的医疗问答都是非结构化且嘈杂的文本数据,这给计算对答案的可信度以及医生的知识水平带来了不便,为了获得更好的效果,就需要更好地表达问题和答案;第三,长尾现象,大多数问题仅仅收到了两三个甚至只有一个答案,这就给筛选答案带来了麻烦,因为答案太少筛选也就没有意义了,而且这些仅有的几个答案甚至没有合理的,这就需要想办法扩大答案集;第四,同一个问题的答案之间的相关性,医疗咨询问题的答案不是唯一确定的,一个问题可能有多个合理可靠的答案,这些答案之间可能有比较高的相似性,这也可以成为计算答案可信度的一个重要依据。
目前,对于医疗问答信息的文本挖掘大多专注于医疗命名实体的识别以及实体之间的关系的发现,最终可以获取医疗问答对中潜在的医疗知识,但是未考虑医疗问答的质量问题。而现实中医疗问答网站中确实存在一些水平不高的医生,甚至一些医生仅仅是为了赚钱而未对患者的提问认真回答,那么得到的医疗知识的质量就难以保证。
发明内容
本发明的目的在于提供一种获取医疗众包问答网站上的问答信息,计算答案可信度及医生水平,从而得到医疗知识的方法。
实现本发明目的的技术解决方案为:一种医疗咨询信息聚合分析方法,包括以下步骤:
(1)利用网络爬虫技术获取医疗健康咨询网站上问答网页,通过网页解析获取文本格式的“问题-答案-医生”三元组形式的医疗信息;
(2)将文本格式的医疗信息转化为基于实体的结构化数据;
(3)计算结构化的问题之间的相似度,合并相似度超过特定阈值的问题以扩大问题的答案集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811211126.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置