https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
有关于最近的一篇传的热火朝天的LLM比医生诊断更精准的论文...我建议各位稍微持多一点谨慎态度。
论文仅使用了50名医生(而且分成了两个组),table 2和table 3中对于医生only和医生+LLM的对比,没有任何一项结果有p < .05 (statistically significant)的结果。
Supplementary material里的eTable2的得分,分项看明明应该是满分,但是愣是搞出来了18/19,严谨性有疑点。
同附件的eFigure 1,你可以看到医生有很多非常非常低分数的情况,我认为这和量表的设计有关系,因为这个量表的最大得分项是全面性,而并非最终的诊断结果。实质上GPT4的最终诊断结果正确(2分)的几率也只有66%,错误(0分)的几率是29%。对比人类的62%, 37%,确实有相应的提升,但是并不统计学上明显,更不是所谓的高过人类15点以上。故,GPT在实验中分数的体现主要很可能因为其实验设计的偏向性。
更何况,还有解释性和问责的问题无法解决。
有关于最近的一篇传的热火朝天的LLM比医生诊断更精准的论文...我建议各位稍微持多一点谨慎态度。
论文仅使用了50名医生(而且分成了两个组),table 2和table 3中对于医生only和医生+LLM的对比,没有任何一项结果有p < .05 (statistically significant)的结果。
Supplementary material里的eTable2的得分,分项看明明应该是满分,但是愣是搞出来了18/19,严谨性有疑点。
同附件的eFigure 1,你可以看到医生有很多非常非常低分数的情况,我认为这和量表的设计有关系,因为这个量表的最大得分项是全面性,而并非最终的诊断结果。实质上GPT4的最终诊断结果正确(2分)的几率也只有66%,错误(0分)的几率是29%。对比人类的62%, 37%,确实有相应的提升,但是并不统计学上明显,更不是所谓的高过人类15点以上。故,GPT在实验中分数的体现主要很可能因为其实验设计的偏向性。
更何况,还有解释性和问责的问题无法解决。