비디오 콘텐츠의 정보 탐색에서 AI에 대한 과도한 의존

Overreliance on AI in Information-seeking from Video Content

arXiv2026-03-20Anders Giovanni Møller, Elisa Bassignana, Francesco Pierri, Luca Maria Aiello

배경 및 소개

최근 YouTube, TikTok 같은 플랫폼 중심으로 온라인 정보 생태계가 ‘영상 우선’으로 재편되고 있는데요. 동시에 검색 인터페이스가 LLM 중심으로 바뀌면서, 사용자는 원본을 직접 탐색하기보다 AI가 요약·중개한 정보를 통해 학습하는 경향이 커지고 있습니다. 문제는 LLM이 부정확하거나 편향을 증폭할 수 있다는 점인데, 텍스트보다 검증이 어려운 영상 맥락에서는 그 위험이 더 커질 수 있습니다. 이 연구는 바로 그 공백을 겨냥해, AI가 영상 기반 정보탐색의 정확도, 효율, 확신도에 어떤 영향을 주는지 실험적으로 측정했는데요. 특히 AI가 ‘도움이 되는 경우’와 ‘교란(속이는) 경우’를 모두 포함해 비교했다는 점에서 주목할 만합니다. 개인적으로는 플랫폼이 AI를 기본 내장하는 흐름에서, 이런 매개가 사용자 행동을 어떻게 바꾸는지 정량적으로 보여준다는 점이 의미 있다고 봅니다.

주요 내용

연구진은 Prolific에서 모집한 917명을 대상으로 8,253개의 영상 정보탐색 과제를 수행하게 했는데요. 2×3 요인 설계로 영상 길이(짧음 <1분, 김 1–5분)와 AI 조건(영상만, Helpful AI, Deceiving AI)을 교차 배치했습니다. 과제는 주제별 YouTube 영상 세트(2025 Louvre robbery, Olympic Games 역사, 2023 OceanGate Titan 사고)에서 개방형 질문에 답하는 방식이며, 각 질문은 특정 구간을 보면 답할 수 있도록 설계했습니다. Helpful AI와 Deceiving AI 모두 Google gemini-3-flash를 사용했고, URL로 영상 콘텐츠를 실시간 처리해 답변하도록 했는데요. Deceiving AI는 3라운드에서 그럴듯하지만 틀린 답을 내도록 프롬프트를 조정했습니다. 참가자는 매 답변 후 5점 Likert로 확신도를 보고했고, 시스템 로그로 정답 구간 시청 여부를 판별했습니다. 정답 평가는 LLM-as-a-judge로 진행했는데요. Claude Opus 4.5, Gemini 3 Pro, GPT-5.2 세 모델의 다수결을 사용했고, 사람 평가와 높은 합치도를 보였습니다. 분석은 OLS 회귀로 정확도와 확신도를 예측하면서 라운드·주제 고정효과와 인구통계 변수를 통제했으며, 행동 시퀀스(영상 시청, 일부 시청, AI 사용 등)도 분류했습니다.

핵심 결과는 세 가지인데요. 첫째, Helpful AI는 정확도를 유의미하게 끌어올렸습니다. 참가자가 정답 구간을 본 경우에는 +3–7%p 개선에 그쳤지만, 구간을 보지 않은 경우에는 +27–35%p까지 상승했습니다. 이는 사용자가 원본 확인 없이도 AI를 통해 충분히 맞출 수 있다는 뜻인데요. 특히 긴 영상에서 효과가 더 컸습니다. 효율성도 개선되어, 짧은 영상에서 약 10%, 긴 영상에서 약 25%의 시간 절감이 관찰되었습니다. 둘째, Deceiving AI가 개입하면 과신과 과의존이 드러났습니다. 참가자 상당수가 AI 답을 그대로 수용해, 정답 구간을 보지 않은 경우 정확도가 최대 -32%p까지 하락했는데요. 정답 구간을 본 경우에도 -5–9%p 수준의 하락이 있었습니다. 셋째, 자기보고 확신도는 조건에 크게 영향받지 않고 평균 약 4.5/5로 안정적이었습니다. 즉, 틀린 AI에 속아 성능이 무너져도 확신은 유지되는 과신 패턴이 확인된 셈입니다. 행동 데이터도 이를 뒷받침하는데요. 라운드가 진행될수록 영상 시청은 줄고 AI 사용은 늘었습니다. 다만 Deceiving AI 조건에서는 소수이긴 하나 AI 답을 본 뒤 영상으로 역검증하는 행동이 증가해, 일부 사용자는 이상 신호를 감지하면 팩트체킹을 시도한다고 볼 수 있습니다. 회귀 결과로는 긴 영상일수록 난도가 올라가지만 Helpful AI가 그 부담을 완화했는데요. 주제 난이도 차와 함께, 일부 인구집단(예: 보수 성향)은 정확도가 낮고, 여성의 확신도는 낮으며 50+ 연령대의 확신도는 높게 나타났습니다. 이는 사용자 특성이 AI 매개의 정보탐색 품질과 메타인지에 교차영향을 줄 수 있다는 점에서 흥미롭습니다.

결론 및 시사점

정리하면, LLM 기반 AI는 영상 정보탐색에서 정확도와 효율을 뚜렷이 개선하는데요. 특히 원본 구간을 건너뛸 때 효과가 극대화됩니다. 동시에 ‘과의존’이 구조적 위험으로 드러났습니다. Deceiving AI가 개입하면 사용자는 사실상 검증 없이 답을 수용해 성능이 급락했고, 확신도는 그대로인 채 오류가 전파되었는데요. 이는 AI가 영상 정보 접근의 기본 인터페이스가 되는 현재 추세에서, 안전장치 없는 매개가 신뢰 보정(calibrated trust) 실패로 이어질 수 있음을 시사합니다. 개인적으로는 UI 레벨에서 원본 구간 근거 제시, 강제적 구간 확인, 불확실성 표지, 반례 제시 같은 HCI 설계가 필수라고 봅니다. 연구의 한계로는 YouTube 중심의 주제·길이 범주, gemini-3-flash 단일 모델 기반, Deceiving 상황의 제한적 조작, LLM-as-a-judge 의존이 있는데요. 그럼에도 대규모 통제실험으로 멀티모달 정보탐색의 이득과 리스크를 동시에 계량했다는 점에서 의미가 큽니다. 후속으로는 과신을 낮추는 인터벤션 A/B 테스트, 출처 결속형 요약과 사용자 행태 피드백 루프, 그리고 다양한 LLM 및 영상 장르에서의 일반화 검증이 필요하지 않을까 하는 기대가 있습니다.

💡 영상 기반 검색에 AI를 붙일 때는 답을 바로 주기보다 정답 구간을 노출·확인하게 만들고, 불확실성 표지와 신뢰 보정 피드백을 결합하는 HCI 설계가 효과적일 것입니다. 연구자는 watched 여부와 행동 시퀀스를 별도 계측해 overreliance를 핵심 지표로 모니터링하는 것이 좋습니다.

뉴스레터 구독

매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.

비디오 콘텐츠의 정보 탐색에서 AI에 대한 과도한 의존

Overreliance on AI in Information-seeking from Video Content

arXiv2026-03-20Anders Giovanni Møller, Elisa Bassignana, Francesco Pierri, Luca Maria Aiello