말을 넘어서: Voice User Interfaces에서 speech analysis를 통한 사용자 경험 측정

Beyond Words: Measuring User Experience through Speech Analysis in Voice User Interfaces

arXiv2026-03-20Yong Ma, Xuesong Zhang, Xuedong Zhang, Natalia Bartłomiejczyk, Seungwoo Je

배경 및 소개

최근 VUIs가 일상 기기 곳곳에 퍼지면서 UX 평가가 중요해졌는데요. 여전히 과제 성공률이나 사후 설문 같은 회고적 지표에 치우쳐, 상호작용 도중의 미묘한 감정 변화나 인지적 부담을 놓치기 쉽습니다. 이에 저자들은 사용자의 음성 자체가 prosody, voice quality, disfluency 등 풍부한 paralinguistic 단서를 담고 있다는 점에 주목했습니다. 말하자면 사용자가 느끼는 만족·신뢰·불편이 발화 속도, f0 변동, 침묵 길이 같은 신호로 드러난다는 가정인데요. 본 연구는 이 가정을 체계적으로 검증해, 음성 파생 feature만으로 UX 수준을 추정하고, 나아가 실시간 implicit sensing으로 대체·보완할 수 있는지를 살폈습니다. 이는 설문 의존도를 낮추고 상호작용의 ‘그 순간’을 포착한다는 점에서 의미가 있습니다. 개인적으로는 VUI 맥락에서 비용·부담이 낮은 신호라는 점이 특히 실무 친화적이라고 봅니다.

주요 내용

연구는 within-subjects 설계로 진행되었는데요. Prolific 참가자 49명이 3개 VA persona와 3개 시나리오를 교차 경험했고, Balanced Latin Square로 순서를 상쇄했습니다. 시스템은 발화 단위로 고해상도 오디오, 전사, 시스템 이벤트(지각·내부 지연 포함)를 동기화 기록했고, 각 블록 후 UEQ+로 attractiveness, trust, satisfaction과 간단한 mood·stress를 수집했습니다. 핵심은 발화별 음성 feature 추출입니다. prosody·timing(f0 수준/변이, articulation rate, pause 빈도·길이), voice quality(jitter, shimmer, harmonic-to-noise ratio), 스펙트럼·시간영역 특성(MFCCs 등), 전사 기반 지표(filled pause, self-repair, 명령 길이)를 구성했는데요. librosa, Praat/Parselmouth, openSMILE을 활용해 LLD와 HSF를 함께 산출하여 해석 가능성과 모델링 효용을 균형 있게 잡았습니다. Persona 조작은 LLM(LLaMA-3.1-70B Instruct) prompt와 최대 토큰으로 대화 톤·장황함·에러 수습을 달리했고, 응답 지연은 0초·4.5초·9초로, voice quality는 Gaussian white noise(15 dB)와 간헐적 dropout으로 열화시켜 실환경 저하를 모사했습니다. TTS는 Google en-US-Neural2-J를 기본으로 썼습니다. 시나리오는 Plan a Trip(기능적 연속 과업), Collaborative Storytelling(창의적 다회전 대화), Fortune Teller(놀이적 롤플레이)로, 서로 다른 발화 스타일을 유도했습니다. 결과적으로 특정 음성 지표가 자기보고 만족·경험과 유의하게 상관했고, 발화 feature만으로 UX 수준을 분류하는 ML 모델도 의미 있는 정확도를 보였습니다. 즉, speech-derived signal이 긍정/중립/부정 UX 판별의 대리 지표로 작동한다는 증거를 제시한 셈인데요. 시스템 로그와 음성을 시간 정렬해 사용자 행동과 시스템 지연을 분리한 점도 해석력을 높였습니다. 개인적으로는 within-participant 정규화와 맥락 공변량(기분, 스트레스, 말수, 오디오 품질)을 함께 본 설계가 HCI 실험의 외생 변수를 꽤 잘 통제했다고 봅니다.

결론 및 시사점

이 연구는 세 가지 기여를 내놨습니다. 첫째, 3×3 persona·시나리오를 아우르는 VUI 테스트베드로 발화·전사·이벤트·UX 평정을 정밀 정렬해 수집했는데요. 둘째, 실시간 적용 가능한 turn-level speech feature 파이프라인을 공개 가능한 형태로 정리했고, 셋째, prosody·timing 중심의 소수 지표만으로도 attractiveness, trust, satisfaction과 체계적으로 연동되며 UX 등급 분류가 가능함을 보였습니다. 이는 설문 중심 평가를 보완하는 저마찰·실시간 UX sensing 경로를 연다는 점에서 주목할 만합니다. 다만 화자 개인차, 마이크·환경 잡음, 악센트 등 맥락 교란에 민감하다는 한계가 있고, 개인정보·프라이버시 윤리도 면밀히 다뤄야 합니다. 개인적으로는 발화 단위 정규화와 품질 관리, 그리고 주체 독립 검증을 확장하면 일반화 가능성이 더 커질 것이라 생각합니다. 나아가 VUI가 음성 신호를 감지해 피로·불확실성 징후에 맞춰 응답 길이, 확인 전략, 수리 대화를 동적으로 조절하는 adaptive design으로 이어질지 않을까 하는 기대가 있습니다.

💡 실무에서는 사용자 발화를 turn 단위로 로깅해 f0 변이, 말속도, 침묵 길이, disfluency 같은 경량 feature를 추출하고, 간단한 ML로 UX 위험 신호를 탐지해 응답 길이 축소, 확인 강화, 에러 수습 전환 같은 적응 전략을 트리거하면 됩니다. 다만 동의·익명화·온디바이스 처리 등 프라이버시 가드를 설계 초기에 함께 넣는 것이 좋습니다.

뉴스레터 구독

매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.

말을 넘어서: Voice User Interfaces에서 speech analysis를 통한 사용자 경험 측정

Beyond Words: Measuring User Experience through Speech Analysis in Voice User Interfaces

arXiv2026-03-20Yong Ma, Xuesong Zhang, Xuedong Zhang, Natalia Bartłomiejczyk, Seungwoo Je