정확성과 수용가능성의 충돌이 있는 Medical Chatbots 설계: 인도 도시 지역에서의 탐색적, vignette-based 연구

Designing Medical Chatbots where Accuracy and Acceptability are in Conflict: An Exploratory, Vignette-based Study in Urban India

arXiv2026-03-23Ananditha Raghunath, William Thies, Mohit Jain

원문 보기 →

배경 및 소개

최근 의료 챗봇이 빠르게 확산되고 있는데요. 특히 대규모 언어 모델(LLM)을 활용한 챗봇은 의료 지침을 바탕으로 비교적 정확한 조언을 제공할 수 있다는 기대를 받고 있습니다. 하지만 이 연구는 정확성만으로는 충분하지 않다는 문제의식에서 출발합니다. 인도처럼 항생제, 지사제, 주사 처방이 실제 진료 관행에서 과잉 사용되는 환경에서는, 챗봇이 지침대로 “약이 필요 없다”고 말해도 사용자는 이를 낯설거나 덜 믿을 만한 조언으로 받아들일 수 있는데요. 즉, 임상적으로 옳은 답이 현지 맥락에서는 받아들여지지 않을 수 있다는 점이 핵심입니다. 이는 의료 AI의 설계가 단순한 정답 제공을 넘어, 사용자 경험과 지역적 치료 규범까지 함께 고려해야 한다는 점에서 의미가 있습니다.

주요 내용

이 연구는 도시 인도 성인 200명을 대상으로 한 탐색적 비네트(vignette) 기반 혼합 방법 연구입니다. 연구진은 흔한 감기, 바이러스성 설사, 긴장성 두통처럼 실제로 지침과 현지 관행이 자주 어긋나는 세 가지 사례를 골랐는데요. 각 사례마다 두 개의 의료 챗봇 대화를 만들어 비교했습니다. 하나는 임상 지침에 맞는 조언을 주는 Verity이고, 다른 하나는 현지 규범에는 맞지만 지침과 어긋나는 조언을 주는 Max입니다. 흥미로운 점은, 두 챗봇이 진단은 동일하게 도달하도록 설계됐다는 것입니다. 즉, 차이는 오직 마지막 치료 권고에서만 나타나도록 한 것이죠. 연구진은 이를 통해 사용자가 조언의 “정확성”보다 “납득 가능성”을 어떻게 판단하는지 보려 했다고 볼 수 있습니다.

1단계에서는 Verity와 Max를 비교했는데, 결과적으로 과반수인 54%가 Max를 더 선호했습니다. 교육 수준에 따라 반응도 갈렸는데요. 고학력 집단은 Verity를 더 선호한 반면, 저학력 집단은 Max를 더 선호했습니다. 이는 단순히 정보 이해 능력의 차이라기보다, 무엇을 의료 조언으로서 정당하다고 느끼는지가 집단마다 다르다는 점을 보여줍니다. 질적 분석에서도 그 이유가 분명하게 드러났는데요. 많은 참가자는 진료를 받았으면 “무언가 처방받아야 한다”는 기대를 갖고 있었고, 쉬기만 하라는 조언은 오히려 아무것도 하지 않는 것으로 받아들였습니다. 또한 실제 생활에서 항생제나 주사가 “잘 듣는 치료”로 경험되어 왔기 때문에, 지침상 불필요하다고 해도 체감상 효과적인 조언을 더 믿는 경향이 나타났습니다. 즉, 의료 판단이 생의학적 근거보다 과거의 체감 효용과 진료 관행에 의해 형성된다고 볼 수 있습니다.

또 하나 흥미로운 점은 의료 권위의 표현 방식입니다. 참가자들은 짧고 단정적으로 말하며 처방을 내리는 스타일을 “의사답다”고 느꼈고, 선택지를 열어두거나 환자 결정을 묻는 방식은 덜 진지하고 덜 신뢰할 만하다고 봤습니다. 개인적으로는 이 부분이 의료 챗봇 설계에서 매우 중요한 지점이라고 생각합니다. 정확한 말투가 아니라 익숙한 말투가 신뢰를 만든 셈인데요. 이는 사용자들이 챗봇의 내용뿐 아니라 상호작용 양식까지 함께 해석한다는 점에서 HCI적으로도 의미가 큽니다. 결국 Max는 내용이 임상적으로 옳아서가 아니라, 익숙한 의료 관행과 말투를 재현했기 때문에 더 정당한 조언처럼 인식된 것입니다.

2단계에서는 이런 문제를 완화하기 위해 맥락 인식 넛지(context-aware nudge)를 넣은 Clarity를 테스트했습니다. 여기서 넛지는 사용자가 놓치기 쉬운 맥락을 먼저 짚어주고, 그 위에서 지침 기반 조언을 제시하는 방식입니다. 결과는 상당히 달라졌는데요. 85%의 참가자가 Clarity를 선호했고, 특히 강한 선호도도 크게 높아졌습니다. 교육 수준에 따른 차이는 여전히 남아 있었지만, 전체적으로는 넛지가 사용자의 해석 과정을 바꾸는 효과를 보였습니다. 질적으로도 참가자들은 Clarity가 “왜 그렇게 말하는지”를 더 잘 이해했고, 따라서 낯선 조언도 받아들일 여지가 생겼습니다. 이는 넛지가 단순히 순응을 유도하는 장치가 아니라, 사용자의 기존 기대와 지침 기반 조언 사이를 연결해주는 해석 장치로 작동할 수 있다는 점에서 중요합니다.

결론 및 시사점

이 연구는 의료 챗봇의 성능을 평가할 때 정확성만 볼 것이 아니라, 사용자가 그 조언을 얼마나 자연스럽고 정당하다고 느끼는지도 함께 봐야 한다는 점을 분명히 보여줍니다. 인도 도시 맥락에서는 항생제, 지사제, 주사에 대한 생활 경험이 강하게 축적되어 있어서, 지침에 충실한 조언이 오히려 “비현실적”이거나 “아무 도움도 안 되는 말”로 읽힐 수 있는데요. 이는 의료 AI가 글로벌 사우스(Global South)에서 작동할 때, 기술적 정합성만으로는 충분하지 않다는 중요한 사례라고 볼 수 있습니다. 다만 이 연구는 실제 대화가 아닌 대화 스크린샷을 사용했고, 단기 반응을 측정했다는 한계가 있습니다. 그럼에도 맥락 인식 넛지가 조언의 수용성을 높일 수 있다는 점은 분명한 시사점을 주는데요. 결국 의료 AI는 정답을 말하는 시스템을 넘어, 사용자에게 “왜 이 조언이 맞는지”를 설득 가능하게 구성하는 방향으로 가야 한다는 점에서 의미가 있습니다.

💡 HCI 실무자라면 의료 챗봇의 응답을 현지 치료 관행과 충돌하지 않도록 맥락화하는 메시지 설계를 검토할 수 있습니다. 연구자라면 정확도 평가와 함께 사용자의 정당성 판단, 신뢰 형성, 해석 과정까지 포함한 평가 프레임을 설계하는 것이 좋습니다.

뉴스레터 구독

매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.