Gemini를 UX 연구자로 만들어 웹사이트를 감사하게 해봤더니 결과는 엇갈렸다

I tried to make Gemini a UX researcher that audits websites, results were mixed

Reddit2026-03-17/u/ThePuckBuddy

배경 및 소개

최근 LLM 기반 에이전트가 브라우저를 직접 조작해 웹사이트를 탐색하고 UX 문제를 찾아내려는 시도가 활발해졌다. 작성자는 Gemini를 Playwright와 Chromium에 연결해 에이전트가 실제로 페이지를 클릭·스크롤하며 구조를 파악하도록 한 무료 도구를 만들고 그 경험을 공유한다. 목표는 전통적인 usability testing을 보완해 빠르게 UX audit 가설을 만들고, 필요하면 persona 시나리오를 흉내 내 사용자 관점의 경로 마찰을 드러내는 것이다. 초기 실험에서 최신 모델들은 분명 더 “똑똑해진” 인상을 주지만, 상용 API 등급에서의 툴 호출 한도와 메모리 제약이 복합 과업 수행의 병목으로 드러난다. 또한 렌더링 오류나 과도한 hover/클릭 인터랙션처럼 웹의 예외 상황은 에이전트를 길잃게 만들 수 있다. 이 글은 가능성과 한계를 함께 짚으며, 실무에 바로 쓸 만한 피드백과 환각성 출력이 공존한다는 현실적인 평가를 제시한다.

주요 내용

핵심은 Gemini를 브라우징 도구와 결합해 에이전트가 사람처럼 사이트를 돌아다니게 하는 것이다. Playwright가 DOM과 네트워크, 이벤트 레이어에 접근하고 Chromium이 실제 렌더링을 수행해 링크 클릭, 폼 입력, 스크롤, hover 등 상호작용을 가능케 한다. 이 셋업 덕분에 에이전트는 정보 구조를 파악하고 주요 플로우를 따라가며 레이아웃 혼잡, 복잡한 네비게이션, 빈약한 affordance, 불명확한 CTA 같은 UX 이슈를 텍스트로 정리한다. 프롬프트에서 특정 persona의 목표를 선언하면 그 목표를 달성하려고 경로를 탐색하고, 단계별 마찰과 가독성·피드백·에러 복구 경험을 기술하는 식으로 시뮬레이션을 수행한다. 그러나 그래픽 자원이 실패해 이미지나 아이콘이 비거나, hover 의존 UI가 과도하거나, 클릭 포인트가 난립하는 상황에서는 다음 행동을 추론하지 못하고 ‘토끼굴’에 빠지기 쉽다. 이런 국면에서 에이전트는 추가 툴 호출을 연쇄적으로 시도하는데, tier 1 API 키 환경에서는 툴 호출 횟수와 컨텍스트 메모리 한계가 빠르게 닥쳐 장기 시퀀스 과제가 중단되기 쉽다. 최신 모델은 탐색 전략과 요약 품질이 개선된 듯 보이나, 복수 페이지 맥락을 기억하며 일관된 usability audit를 완성하려면 더 넉넉한 토큰 예산과 스텝 관리가 필수라는 점이 드러났다. 공개된 무료 도구는 결과적으로 약 70%는 실무에 바로 쓸 만한 UX 피드백을 제공하지만, 나머지 30%는 환각이거나 맥락과 어긋난 제안으로 평가된다. 따라서 출력은 맹신하지 말고, 핵심 흐름(회원가입, 체크아웃, 검색, 오류 복구 등) 중심으로 시작 과업과 시작 URL을 제한해 탐색 폭을 관리하는 편이 좋다. 또한 스크린샷과 DOM 스냅샷을 함께 검토하며 사람이 최종 큐레이션을 수행하면 유용성이 크게 높아진다.

결론 및 시사점

정리하면 Gemini+Playwright+Chromium 조합은 웹 탐색형 UX audit 자동화의 실용적 출발점이지만, 현 시점에서는 보조 도구에 가깝다. 모델이 똑똑해져도 렌더링 실패, 인터랙션 과밀, 모호한 과업 정의, 제한된 API 등급이 맞물리면 에이전트는 쉽게 경로 이탈을 겪고, 기억 범위를 넘어서는 순간 품질이 요동친다. 그럼에도 짧은 시간에 초기 진단과 가설 목록을 생성해 디자이너와 리서처의 시간을 절약한다는 점은 뚜렷한 장점이다. 신뢰도를 높이려면 더 높은 API 티어, 툴 호출 스케줄링, 탐색 깊이 제한, 가드레일 프롬프트, 실패 감지와 리커버리 루틴 같은 운영적 설계가 필요하다. 전체적으로 보면 이 도구는 약 70%의 실행 가능한 인사이트와 30%의 잡음을 동반하는 만큼, human-in-the-loop 검증과 후속 정성·정량 연구로 보완하는 전략이 요구된다. 결국 ‘소금 한 꼬집’의 회의적 태도를 전제로 현업 워크플로에 통합할 때 가장 큰 가치를 낼 수 있다.

💡 빠른 프리-audit과 persona 기반 시나리오 탐색에 활용하되, 시작 과업을 좁히고 탐색 스텝·툴 호출을 제한하며 사람이 스크린샷·DOM 근거로 검증·수정하는 워크플로로 통합하라. 더 높은 API 티어와 가드레일 설계를 병행하면 환각 비율을 낮추고 일관된 UX 인사이트를 확보할 수 있다.

뉴스레터 구독

매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.