의사 VS AI, 과연 누가 더 정확할까? AI의 발전으로 사람들은 자신의 직장의 대체와 발전 둘다 원하는 경지까지 오게 되었습니다. 200달러를 쓰고 Pro Mode를 쓴 사람은 더더욱 '와 GPT가 이 경지까지 오게 되었구나' 라는 생각이 들 정도로 좋아졌습니다.
미국에 실제로 하버드 의대, 스탠퍼드 의대, 브리검 병원 등 주요 연구 기관과 병원에서 협력해 AI의 잠재력을 평가한 논문
Superhuman performance of a large language model on the reasoning tasks of a physician에 대해서 간단하게 리뷰해드립니다.
해당 논문의 저자들은 o1-preview를 다양한 벤치마크에서 시험하며 그 성능을 평가했습니다. 먼저, NEJM CPC (교육 목적으로 만들어진 임상 밎 실험실 데이터) 사례에서는
AI가 진단 정확도 78.3%를 기록했습니다 (GPT3은 39%였습니다). 첫 번째 진단으로
정답을 맞춘 비율도 52%에 달해 인간 의사를 상회했습니다.
추가로 GPT-4와의 비교에서 드러났습니다.
o1-preview는 88.6%라는 정답률을 기록하며,
GPT-4의 72.9%를 압도했습니다.
단순히 진단에 그치지 않고, AI는 다음으로 진행할 검사를 추천하는 영역에서도 우수한 성능을 보였습니다.
AI의 추천 정확도는 87.5%로 실제 진료 계획과 일치했으며,
이는 인간 의사와 GPT-4보다 월등히 높은 결과였습니다. 또한 관리 및 치료 계획이 필요한 사례에서도
평균 86%의 점수를 기록하며 AI의 일관된 판단 능력을 보여주었습니다.
하지만 AI가 인간 의사를 완벽히 대체할 수 있는 것은 아닙니다. 확률적 판단과 같은 불확실한 상황에서는 AI가 인간의 직관과 경험을 따라가지 못했습니다. 예를 들어 질병 확률을 예측하는 문제에서는 GPT-4와 비슷한 수준의 성능을 보였지만, 여전히 인간의 깊은 판단력에는 미치지 못하는 점이 확인되었습니다.
해당 글을 찾다가 GPT3이 나왔을때 'GPT3이 의사 면허를 통과했다!" 라는 뉴스기사를 확인했는데, 이젠 통과를 넘어서 실력적으로 넘어서는 경지까지 이뤄졌습니다.
결론은 AI는 의사를 대신하는 도구가 아닌 의료 혁신을 이끄는 파트너로 자리 잡을 준비를 하고 있습니다. 잊지마세요, o1 은 20$입니다. 보험금이 안나와서 CEO를 죽일 필요도 없습니다.
뉴 노멀은 다가오는 중입니다.