과학자들이 ‘가짜 병’을 만들어냈다…AI가 사람들에게 진짜처럼 믿게 한 방법

Scientists invented a fake disease. AI told people it was real

HN26/04/07EA-3167조회 1

원문 보기 →HN 토론 →

HCI Today가 핵심 내용을 정리했어요

배경

•이 글은 가짜 의학 정보가 AI 챗봇과 논문에 퍼지는 문제를 보여주는 실험에 대한 내용입니다.

주요내용

•스웨덴 연구자는 존재하지 않는 눈병 ‘bixonimania’를 만들어 가짜 논문을 올리고, AI가 이를 사실처럼 배우는지 확인했습니다.
•실험 뒤 Bing Copilot, Gemini, ChatGPT, Perplexity 같은 LLM이 이 병을 실제 질병처럼 설명해 문제가 드러났습니다.
•가짜 논문은 일부 연구자들의 논문에도 인용되었고, 한 학술지는 뒤늦게 허위 참고문헌 때문에 논문을 철회했습니다.

결론

•이 사례는 AI와 사람 모두 출처를 쉽게 믿으면 거짓 정보가 과학과 의료에까지 퍼질 수 있음을 보여줍니다.

HCI 전문가들의 생각을 바탕으로 AI 에디터가 생성한 요약입니다.

HCI 관점에서 읽을 만한 이유

이 글은 LLM이 단순히 ‘틀린 답’을 내는 문제가 아니라, 사용자가 어떤 형식의 정보를 더 믿게 되는지까지 보여줍니다. 특히 논문처럼 보이는 문장, 전문가 톤, 출처 표기만으로도 신뢰가 쉽게 생기는데요, 이는 HCI에서 말하는 정보의 신뢰성, 맥락, 인터랙션 설계가 얼마나 중요한지 잘 드러냅니다. 실무자와 연구자 모두에게 ‘정확도’만이 아니라 ‘어떻게 믿게 되는가’를 보게 하는 사례입니다.

CIT의 코멘트

이번 사례의 핵심은 LLM의 지식 부족보다 인터랙션 실패에 가깝습니다. 사용자는 모델 내부를 볼 수 없으니, 화면에 보이는 말투와 형식으로 진위를 판단하게 되는데요, 그럴듯한 의료 문체와 논문 형식이 오히려 오답을 강화했습니다. 안전이 중요한 영역에서는 단순한 답변 생성보다, 현재 정보의 근거 수준과 불확실성을 드러내고 사용자가 쉽게 개입할 수 있는 경로를 함께 설계해야 합니다. 또 한 가지 흥미로운 점은, 이런 문제를 측정하는 UX 도구 자체도 AI로 보조할 수 있지만, 그럴수록 평가 절차의 엄밀함은 더 강해져야 한다는 점입니다. 결국 중요한 것은 모델 성능만이 아니라, 사람이 어디서 멈추고 확인하고 수정할 수 있는지입니다.

원문을 읽으면서 던질만한 질문

Q.의료처럼 위험이 큰 영역에서 LLM이 답할 때, 불확실성을 어느 수준까지 어떻게 보여줘야 사용자가 과신하지 않을까요?
Q.논문처럼 보이는 형식이 신뢰를 과도하게 키우는 문제를 줄이려면, 인터페이스에서 어떤 장치가 가장 효과적일까요?
Q.LLM을 활용해 UX 측정이나 평가 도구를 만들 때, 자동화로 얻는 편의성과 연구 엄밀성 사이의 균형은 어떻게 잡아야 할까요?

HCI 전문가들의 생각을 바탕으로 AI 에디터가 생성한 코멘터리입니다.
정확한 내용은 반드시 원문을 참고해주세요.

원문 읽으러 가기 →

뉴스레터 구독

매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.