首页 > 品牌故事 > 观点政策 > 症状检查系统在提供自助诊断和分诊服务的准确性研究

症状检查系统在提供自助诊断和分诊服务的准确性研究
Evaluation of symptom checkers for self diagnosis and triage: audit study

2015-10-10

参考译文：54Doctor周鹏远

本文刊载在杂志2015年7月8日

BMJ 2015; 351 doi: http://dx.doi.org/10.1136/bmj.h3480 (Published 08 July 2015) Cite this as: BMJ 2015;351:h3480

以下为原文作者信息，主要作者均来自哈佛大学医学院：

1. Hannah L Semigran, research assistant, Department of Health Care Policy, Harvard Medical School, Boston, MA 02115, USA

2. Jeffrey A Linder, associate professor, Division of General Medicine and Primary Care, Brigham and Women’s Hospital & Harvard Medical School, Boston, MA, USA

3. Courtney Gidengil, instructor3, natural scientist4,

4. Ateev Mehrotra, associate professor1 5

目标：检测症状检查系统（Symptom Checker,一种通过计算机算法帮助患者做自助诊断或自助分诊的在线（或手机App）系统工具）在自助诊断和分诊方面的准确率分析研究

范围设置：通过公众手段能够获取的免费症状检查系统工具

入选测试对象：选择了23款英文的可在一定范围内提供参考建议的在线症状检查系统。采用45个标准患者症状案例根据分诊急迫性分成三类进行测试：需要急诊的症状（如：肺栓塞），无需紧急处理（但需要就诊）的症状（如：中耳炎），需要自助处理的（如：病毒性上呼吸道感染）

主要观察指标：基于在线症状检查系统提供的自助诊断结果，我们主要考察排在的结果或者是前20位的推荐结果（n=770个标准患者评价）。基于在线症状检查系统提供的自助分诊结果，我们主要考察能否准确提供三类分诊建议，分别是需要急诊的症状，无需紧急处理的症状和需要自助处理的（n=532个标准患者评价）

引言

　　越来越多的人通过互联网来探究他们所面临的健康问题。举例来说，英国国民卫生服务体系(NHS)的官方网站（NHS Choices）上患者门户的月访问量超过1.5亿人次。超过1/3的美国人会通过互联网进行疾病的自我诊断，这其中包括无需紧急处理的症状和类似胸痛这样需要紧急处理的症状。只要给出具体的搜索条件就能通过互联网获得大量的健康信息，因此很多人的自我诊断是通过Ｇｏｏｇｌｅ.com,Bing.com或者Yahoo 等进行的（在中国肯定是Baidu啦）。然而，互联网搜索引擎常常提供给用户一些混淆的信息，有时甚至提供一些未经证实的信息（这在健康信息方面尤为严重），一些需要紧急处理的症状通过搜索引擎获得的未必是需要紧急处理的意见。近段时间，一种称为症状检查系统（Symptom Checker）的复杂程序在互联网上应用广泛，这种系统尝试更有效地为患者（用户）提供准确的诊断信息和分诊处理意见。

　　通过一套计算机算法，症状检查系统会针对用户对症状的自我判断提供一系列问题让用户作答或者直接让用户填写详细症状清单。这类系统常见的算法有基于树状结构的分支逻辑算法和基于概率论的贝叶斯算法。包括NHS,美国儿科学会，梅奥诊所等企业或组织都纷纷推出自己的在线症状检查系统。其中像iTriage这样的在线系统每年使用次数超过5亿次。通常情况下症状检查系统是通过门户网站的在线功能提供的，也有部分系统是通过手机APP的方式提供。

　　一般来说，症状检查系统有两部分功能：一是进行自我诊断，二是提供分诊建议。自我诊断功能会提供一个诊断结果列表，通常按照可能性等级对结果进行分级排序。自我诊断的功能通常是基于患者提供的可能符合他们的症状给出一个诊断结果范围。分诊功能则是为患者提供就医途径的支持，比如究竟看哪个科（急诊科还是全科），就诊的急迫性，比如是需要马上看医生还是可以等一段时间。症状检查系统或有可能替代电话分诊咨询这种较普遍的基础卫生保健服务。为了保障医疗专用移动App的安全性，美国国会正酝酿通过一项医疗专用App在提供自我诊断类专业支持时可涉及的医疗范围和建议清单标准。

　　使用症状检查系统有许多潜在的好处，比如可以在患者遇到类似中风或心脏病发作等危急生命的问题时寻找紧急的处理办法。对于不需要紧急处理或者就医的健康问题时，这类系统会建议人们呆在家里并且在一定程度上消除患者的疑虑。约1/4类似急性上呼吸道感染之类的急性呼吸道疾病患者只需到药店购买药物治疗即可，有超过一半以上的患者没有必要接受抗生素治疗。减少就诊次数就是为患者节约时间和金钱，也在一定程度上阻止过度使用抗生素问题的发生，更重要的是减少了这类初级医疗卫生服务工作，而这部分初级工作在1995年至2008年之间一度占据了英国全科医生工作量的62%。然而，我们必须要认识到，如果是有生命危险的患者被误诊或者被告知无需就医，从而导致健康状况恶化，就可能增加发病率甚至死亡率。另一方面，如果患者只是轻微的疾病却被告知须要就诊，甚至要求患者去急诊，那么这类系统反而会导致患者和社会的时间和成本的增加。

　　症状检查系统所造成的影响很大程度上取决于它实际的临床表现了。为了检测这类在线症状在自我诊断或分诊信息提供方面的准确性，我们使用了45个标准患者症状案例检测了23个症状检查系统。这些标准案例涵盖了常见与不常见的症状，也包括了严重威胁生命的情况和普通的对健康影响很小的情况。

寻找在线调查系统的策略

　　在2014年6月到12月间，我们按照如下条件寻找在线症状检查系统：a.使用英语，b.免费使用的，c.是针对人的（相对于一些兽医系统而言），d.并不是只专注用于一类疾病的（比如说只是解决骨科的相关问题）。寻找症状检查系统App的样本是通过在apple store和google Play中键入关键词“症状检查系统（symptom checker）, 临床诊断系统（medical diagnosis）”，我们一共找到了并选择了240个搜索结果。之所以选择240个，是因为之前的类似研究也使用240作为样本边界。寻找在线症状检查系统样本则是在Goole和谷歌学术（Google Scholar）键入与前述相同的两个关键词后，在谷歌推荐的前300条结果中进行选择。选择前300条的原因是在过去的研究中发现超过300条的搜索结果其相关性较之前的有明显下降。我们还通过两个症状检查系统开发商提供了一些我们搜索结果之外的他们所知的症状检查系统竞争产品。

　　最后我们一共找到了143个症状检查系统，这其中我们还从102个使用相同医学数据内容和算法逻辑的症状检查系统（因为它们会产生同样的结果）（见附录中的列表）中排除掉同类产品。在此基础上我们还排除了25个只处理单一病种（学科）（如只处理骨科病症的）的系统和14个只能根据具体的诊断或疾病信息提供医疗知识和建议而不能提供诊断和分诊建议的系统，以及两个不能使用的系统。最终我们获得了23款症状检查系统作为测试样本。

症状检查系统的特征

　　我们将待检测的症状检查系统进行分类的方式包括：按照提供自我诊断、提供分诊建议或者两者都具备进行分类；按照提供症状诊断系统的组织机构类型进行分类；按照系统能给出的诊断信息数量以及是否按照通常用于儿童和成人在电话咨询中分诊策略的施密特或汤普森护士分诊指导进行。我们将政府需求和健康计划分在一类是因为这两者都有通过财政激励来降低不必要的就诊服务所造成的损失的共同诉求。附件中我们提供了患者在使用症状检查系统后相关的就诊服务的数据。

临床案例

　　我们使用了45个标准患者案例来对症状检查系统在自我诊断和分诊建议方面的准确性进行评估。我们使用临床案例来评估是因为在通常情况下评估一个临床医生的诊断能力和病历的管理决策能力也是采用同样的方法。我们根据分诊的紧急程度将这些标准患者案例分为3类：15个需要急诊的案例；15个需要就诊但是不需要紧急处理的案例和15个没有必要上医院就诊，只需要进行自我护理就可以的案例。我们选择较严重情况的患者案例是因为无论是紧急或者不紧急的病症患者都有可能使用症状检查系统。标准患者案例中既包括了常见的病症也包括了不常见的病症，原因是我们觉得临床医生可能会对那类不常见但是又有潜在生命威胁的病症问题感兴趣。

　　这些标准患者案例从不同的信息源进行了确认，包括专业医生的培训资料以及专业医疗资源网站上由医生小组提供的内容组成。信息源可靠性确保每一个患者案例提供了相关的正确诊断结果。症状检查系统通常需要用户填写一个症状描述单或者通过一组问题链的方式收集患者的症状信息。每一个案例通过对其核心症状进行简化提炼以便于可以用较简单的方式进入这个案例，但是由于部分参与测试的症状检查系统提出的问题超出了我们案例所提供的范围，我们不得不按照系统的要求增加一部分内容（详见附录1）

　　我们是基于美国CDC提供的2009~2010年美国就诊情况统计中最普遍的疾病诊断信息对45个案例按照常见和罕见进行分类整理的（详细情况参考附录1）。

评估诊断和分诊的结果

　　通过将每一个标准化患者案例输入到对应的在线症状检查系统或者App中，从而获得该系统提供的诊断和分诊结果信息。我们其中一个完全没有受过医学训练的作者HS录入了全部的案例信息。同时让另一个也没有受过医学训练的人在从标准患者案例中随机选择25个录入到症状检查系统中，发现二者获得系统反馈的诊断和分诊信息的结果一致性很高(Cohen’s kappa系数为0.9)。在一些症状检查系统的测试中因为该系统只是针对儿童或者只是针对成人，或者在提供症状表单或问题链时恰恰缺乏最关键的症状信息的获取，因而无法对这类系统进行正确评估。为了避免本研究因为上述系统的漏洞造成对厂商的不利影响，我们只选择那些能够按照标准患者案例进行“标准化诊断或分诊”的数据进行统计和分析。

　　为了有效评估症状检查系统提供诊断的准确率，我们标注出那些列出正确诊断结果或者提供完全准确的诊断结果的数据。相当多的标准患者案例在两款症状检查系统中出现了多个诊断结果（最多的数量达到99个）。我们认为一款症状检查系统所提供的诊断结果信息列表在20个内容，因为太多的诊断结果信息我们认为对患者而言是没有实际意义的。事实上大部分患者只会选择推荐诊断列表中最前面的信息。因此，我们也会观察被检查的系统能否在诊断列表的前三条内就包含正确的诊断结果，如果症状检查系统提示无法确认输入的症状条件，我们也判断这个系统输出的结果为不正确。

　　我们把分诊建议分成三类：类是需要紧急处理的，包括需要马上叫救护车或者需要马上看急诊，或者需要马上找医生就诊；第二类是不需要紧急处理但是需要安排就诊的，包括需要咨询全科医生或者初级保健医生，需要安排到医疗机构就诊，需要找专家，需要远程咨询医生等；第三类是只要自我处理无须就诊的，比如呆在家中休息或者去药店买点药。如果系统同时给出多个分诊科室建议（比如急诊科和专科）我们会优选急诊科，我们之所以这么做，是因为在所有的分诊建议中，最紧迫的建议显然应该放在位。如果一款症状检查系统无法按照标准患者案例得出准确的诊断结论，而只是提供了分诊建议，我们仍然会评估这个分诊建议的合理性。除了多数情况下总是给出看急诊建议的iTrage，其他大部分需要让患者通过选择正确的诊断信息才能提供分诊建议的症状检查系统的数据我们都未加入到评估体系中。

患者参与情况

本研究中没有患者参与

研究样本

　　我们选择了23个的症状检查系统分别来自英国、美国、荷兰和波兰。其中11个系统可以同时提供诊断结果和分诊建议，8个系统只能提供诊断结果，4个只能提供分诊建议。在45个标准患者案例中包含了26个常见案例和19个罕见诊断案例。本次研究通过标准患者案例获得770个诊断结果和532个分诊建议参与评估。在所有参与测试的症状检查系统中只有10个系统没有要求用户提供年龄和性别等人口统计学信息。

诊断准确率和分诊建议准确率数据

图片3.jpg

测试结果

　　被测试的23款症状检查系统能够给出34%（95%可信区间在31%~37%）的正确诊断信息（推荐诊断信息），在提供的前20条诊断信息中包含正确诊断信息的比例为58%(可信区间在55%~62%)，并且能够提供准确率为57%（可信区间在52%~61%）的合理分诊建议。在按照就诊急迫性对分诊建议有效性的测试中，“需要急诊”类的有效性达到80%（95%可信区间在75%~86%），无需紧急处理的合理分诊建议有55%(47%~63%)正确，自助处理的分类只有33%（95%可信区间在19%~48%）建议信息正确。

结论

　　在线症状检查系统在提供诊断或分诊建议时存在缺陷。在线症状检查系统提供的分诊建议在鼓励用户在有可能自我护理的条件下寻求医疗服务时通常需要进行风险规避。

讨论

　　采用标准患者案例来检测诊断和分诊建议方面的准确率，症状检查系统们的表现并不太令人满意。平均而言，将正确诊断结果列入前20条结果信息只有58%的概率，而的系统可以做到84%。症状检查系统给出合适的分诊建议和处置意见的情况占到一半左右，如果按照临床紧急和严重程度来看，80%的情况下能给出需要急诊的建议，但是准确给出只需要自我照顾的合适建议则只有34%.

使用症状检查系统的意义

　　症状检查系统和呼叫中心电话分诊咨询逐渐成为降低不必要现场就诊的有效手段。人们在寻求医疗帮助的过程中症状检查系统所提供的建议究竟造成多大的影响，这些情况目前是不清楚的。在一项研究中我们看到，用户明显对症状检查系统给出的诊断结果表示质疑，进而用户会对症状检查系统的分诊建议产生反感，这种对症状检查系统的发展非常不利的趋势值得关注。约有2/3症状检查系统对没有必要就医的标准化患者案例给出了鼓励就医的建议。过度风险规避的就医建议并不只限于症状检查系统，呼叫中心的人工分诊建议同样促生更多的无必要就诊行为。以英国NHS咨询热线为例，因为接线员多数为非医学专业人员，他们的（过渡规避风险的）就医建议与英国日益增加的急诊就诊量不能说没有关系。一些“患者”在网上搜寻健康信息的动机往往是因为缺乏医学知识所形成的恐惧，而由症状检查系统列出的所谓相关诊断信息有促使人们患“疑病症”或者说“网络疑病症”的嫌疑，因为这些不确切的诊断描述从某种程度上增加了获得这类信息的患者的焦虑程度。混淆的诊断结果，过度风险规避的就诊建议和网络疑病症意味着症状检查系统们推动着患者去接受本没有必要的医疗服务，从而导致整个社会的医疗成本的增加。

　　去了解患者如何认识和使用症状检查系统所提供的建议，以及使用症状检查系统在寻找就医环节中所产生的影响应该是未来研究的方向和重点。

　　本次研究中所涉及的症状检查系统代表了此类系统工具的代产品的水平，有一些潜在的技术发展可能会提升未来版本的性能。首先，结合当地的流行病学数据会对形成有效的诊断意见有益。其次，症状检查系统可以通过结合患者的医疗费用信息和电子病历信息来提升诊断和分诊建议的准确性（这个技术方案译者赶脚难度好大啊）。第三，人口统计学信息对于提高症状检查系统在诊断和分诊建议的准确性上至关重要。然而，在本次研究中我们却惊奇的发现所有的症状检查系统都要求填写个人基本信息，但是却没有好好利用用户已经填写的人口统计学信息，这些信息如果加入到整个程序的算法中是有可能提高诊断结果和分诊建议的准确性的。

附录1 美国2009~2010年CDC提供的美国就诊情况统计中最普遍的疾病诊断

1．传染病与寄生虫病

1）链球菌咽喉炎

2）人类免疫缺陷病毒综合征（艾滋病）

3）病毒疣

4）未知病毒和衣原体感染

5）脚气

6）念珠菌病

7）其他传染病和寄生虫病

2．肿瘤

1）结肠直肠恶性肿瘤

2）皮肤恶性肿瘤

3）乳腺恶性肿瘤

4) 前列腺恶性肿瘤

5) 淋巴和造血组织恶性肿瘤

6）其他恶性肿瘤

7）皮肤良性肿瘤

8）其他良性肿瘤

9）肿瘤的不确定行为和未指定的性质

3. 内分泌、营养及代谢性疾病及免疫失调

1）获得性甲状腺功能减退症

2）甲状腺其他疾病

3）糖尿病

4）脂质代谢紊乱

5）肥胖

6）其他内分泌、营养及代谢性疾病及免疫性疾病

4. 血液和造血器官的疾病

1）贫血

2）其他疾病的血液和血液形成器官

5. 精神障碍

1）精神分裂症

2）重度抑郁障碍

3）其他精神疾病

4）焦虑状态

5）神经性抑郁

6）酒精依赖综合征

7）药物依赖性和非依赖性药物滥用

8）急性应激反应

9）抑郁障碍，

10）注意缺陷障碍

6. 神经系统和感觉器官的疾病

1）偏头痛

2）中枢神经系统其他疾病

3）腕管综合征

4）外周神经系统疾病

5）视网膜脱离及其他视网膜疾病

6）青光眼

7）白内障

8）屈光和调节障碍

9）结膜炎

10）眼睑紊乱

11）其他的眼及附属器疾病

12）外耳疾病

13）中耳炎咽鼓管障碍

14）其他耳和乳突疾病

7. 循环系统疾病

1）心绞痛

2）冠状动脉粥样硬化

3）其他缺血性心脏病

4）心律失常

5）充血性心力衰竭

6）其他心脏病

7）原发性高血压

8）脑血管病

9）的动脉疾病，小动脉和毛细血管

10）痔

11）其他疾病的循环系统

8. 呼吸系统疾病

1）急性鼻窦炎

2）急性咽炎

3）急性扁桃体炎

4）急性支气管炎及毛细支气管炎

5）其他急性呼吸道感染

6) 慢性鼻窦炎

7）过敏性鼻炎

8）肺炎

9）慢性及未指定的气管炎

10）哮喘

11）其他慢性阻塞性肺疾病及相关疾病

12）呼吸系统其他疾病

9. 消化系统疾病

1）牙齿和支撑结构的疾病

2）胃炎、十二指肠炎

3）食管炎

4）胃和小肠溃疡

5）腹壁疝

6）非感染性肠炎和结肠炎

7）小肠憩室

8）便秘

9）肠易激综合征

10）肛门直肠疾病

11）胆囊与胆道疾病

12）消化道出血

10. 泌尿生殖系统的疾病。

1）肾、输尿管结石

2）膀胱炎及膀胱其他疾病

3）尿路感染，未指定地点

4）泌尿系统其他疾病

5）前列腺增生

6）男性生殖器器官的其他疾病

7）乳腺疾病

8）女性盆腔炎疾病

9）女性生殖器官的非炎性疾患

10）月经失调及异常出血

11）绝经及绝经后疾病

11. 妊娠并发症，分娩和产褥期

12. 皮肤及皮下组织的疾病

1）蜂窝织炎和脓肿

2）皮肤及皮下组织的其他感染

3）接触性皮炎及其他湿疹

4）牛皮癣和类似病症

5）皮肤及皮下组织的其他炎症状态

6）鸡眼，老茧，其他增生性和萎缩性皮肤病

7）光化、脂溢性角化病

8）痤疮

9）皮脂腺囊肿

10）荨麻疹

13. 肌肉骨骼系统和结缔组织疾病

1）类风湿关节炎

2）骨关节病及相关疾病

3）其它疾病及相关疾病

4）关节紊乱和其他未知疾病

5）椎间盘疾病

6）腰痛

7）其他的背部痛

8）滑膜炎和腱鞘炎

9）肌痛及肌炎

10）其他风湿病

11）骨和软骨的紊乱

12）肌肉骨骼系统和结缔组织的其他疾病

14. 先天性异常

15. 围产期的某些情况

16. 症状，体征，和不明确的条件

1）晕厥和塌陷

2）抽搐

3）头晕和眩晕

4）不明原因的发热

5）累及皮肤和其他皮肤组织症状

6）头痛

7）鼻出血

8）异常心音

9）呼吸困难及呼吸异常

10）咳嗽

11）胸痛

12）泌尿系统症状

13）腹痛

17. 损伤和中毒

1）桡骨和尺骨骨折

2）手、手指骨折

3）下肢骨折

4）其他骨折

5）扭伤、腕和手株

6）扭伤和膝关节和腿的菌株

7）踝关节扭伤和拉伤

8）颈部扭伤及拉伤

9）其它扭伤和拉伤后

10）其它扭伤和拉伤

11）颅内损伤，不包括颅骨骨折

12）头部伤口开放

13）手和手指张开的伤口

14）其他开放伤口

15）浅层角膜浅层损伤

16）其他表面损伤

17）完整的皮肤表面的挫伤

18）中毒

19）外科手术和医疗并发症

18. 影响健康的因素的补充分类

1）与传染病相关的潜在健康危险

2）与个人及家族病史有关的潜在健康危害

3）常规婴儿或儿童健康检查

4）正常妊娠

5）产后护理检查

6）遭遇避孕管理

7）与繁殖有关的其他遭遇

8）人工开口和其他手术后的状态

10）注意外科敷料和缝线

11）跟进检查

12）妇科检查

（注：索要原文的读者请与本刊编辑联系，email: zpy1798@163.com。或者通过原文地址http://dx.doi.org/10.1136/bmj.h3480自行下载）

国家发展改革委办公厅财政部办公厅关于申报2015年外国政府贷款备选项目的通知

关于互联网究竟如何帮助医疗服务提高效率的一点思考

品牌故事

症状检查系统在提供自助诊断和分诊服务的准确性研究 Evaluation of symptom checkers for self diagnosis and triage: audit study