-
Debate Chatbots to Facilitate Critical Thinking on YouTube: Social Identity and Conversational Style Make A DifferenceHCI 2024. 8. 17. 22:32
*단순 번역입니다.
1. Introduction
필터 버블 현상은 소셜 미디어 플랫폼, 특히 YouTube와 같은 온라인 비디오 플랫폼에서 지속적으로 문제가 되고 있습니다. 2023년 기준으로 YouTube는 월간 활성 사용자 수가 27억 명 이상이고 일일 검색 수가 35억 건에 달합니다. 텍스트 기반 플랫폼이 여러 주제를 빠르게 전환하는 짧은 교환을 촉진하는 반면, YouTube의 장시간 비디오는 아이디어를 더 깊이 있게 제시할 수 있어 문화, 신념 체계, 정치 및 사회적 이슈에 관한 학습 자원으로 인기가 있습니다. 그러나 "지적인 입장과 견해의 선패키징이 너무 교묘하여 사고가 불필요해 보인다"는 점에서 비디오의 시청각적 특성과 YouTuber의 영향력은 더 몰입적이고 따라서 더 수동적인 콘텐츠 소비로 이어질 수 있습니다. 특히 플랫폼의 추천 알고리즘이 다양한 관점에 대한 노출을 제한할 수 있어 밴드왜건 효과나 거짓 합의 효과를 유발해 기존 사회적 편견과 고정관념을 강화할 수 있습니다. 또한, YouTube는 가짜 뉴스와 검증되지 않은 콘텐츠를 포함한 허위 정보에 취약하며, 비디오 미디어 리터러시 교육이 텍스트 기반 미디어보다 여전히 널리 퍼져 있지 않아 이러한 문제가 더 심각해집니다. 이러한 문제는 필터 버블을 강화하고 YouTube의 문화적 역량을 저해합니다.
이러한 도전 과제들로 인해 비디오 플랫폼에서 비판적 사고 능력이 특히 중요해집니다. 비판적 사고는 정보를 객관적으로 분석하고 평가하여 판단을 내리는 것을 포함합니다. 이는 시청자가 알고리즘적 편향과 수동적 콘텐츠 소비를 헤쳐 나가는 데 도움이 될 뿐만 아니라 허위 정보를 식별하는 데에도 유용합니다. 다른 관점을 가진 사람들과 토론에 참여하는 것은 비판적 사고를 향상시키는 검증된 방법입니다. 특히 다양한 문화를 이해하는 데 도움이 됩니다. 하지만 이를 YouTube에서 구현하는 것은 도전 과제입니다. 시청자는 반대 의견을 가진 신뢰할 수 있고 존중할 만한 토론 상대를 찾는 데 어려움을 겪을 수 있으며, 민감하거나 논란이 될 수 있는 주제를 논의할 때 상대방을 불쾌하게 할까 봐 걱정할 수 있습니다. 따라서 시청자가 다양한 의견과 건설적인 토론에 참여하여 자신의 시각을 넓히고 기존 편견에 도전할 수 있는 안전한 공간이나 신뢰할 수 있는 존재가 플랫폼에 필요합니다.
최근 LLM 기반 챗봇이 이러한 토론을 구현하기 위한 실질적인 해결책으로 등장했습니다. AI 챗봇은 능동적이고 적응력이 있으며 쉽게 접근할 수 있는 개입을 제공합니다. 최근의 대형 언어 모델(LLM)의 발전으로 챗봇은 비디오 콘텐츠를 이해하고, 페르소나를 모방하며, 복잡하고 일관된 대화를 나눌 수 있게 되었습니다. 무엇보다도, 이들은 설득력 있는 메시지를 작성하고 강력한 논거를 제시할 수 있는 능력이 있다는 것이 입증되었습니다. 따라서 우리는 사용자가 추천 알고리즘에 의해 추천된 비디오를 시청한 후 의견을 재확인하는 상황에서 챗봇 인터페이스를 제안했습니다. 챗봇은 사용자와 비디오에 반대 입장을 취하고 해당 주제에 대해 토론을 제안합니다. 논리적으로 일관되고 설득력 있으며 흥미로운 대화를 통해 챗봇은 사용자가 "그 순간"에 비판적 사고를 하도록 유도하고, 시간이 지남에 따라 미디어 리터러시 능력을 향상시키도록 도울 수 있습니다.
챗봇이 비판적 사고를 유도하는 데 효과적이기 위해서는 챗봇 페르소나의 설계가 중요합니다. 챗봇에 특정 페르소나를 부여함으로써 사용자는 챗봇의 지능과 행동에 대해 더 구체적인 기대를 가지게 되어 상호작용이 더 흥미로워집니다. 챗봇의 목표는 YouTuber의 영향을 도전하는 것이기 때문에, 챗봇도 동일하게 흥미롭고 사용자가 영향을 받을 수 있도록 해야 합니다. 기존 문헌에 따르면 인간의 주장을 신뢰할 수 있고 영향력 있게 만드는 많은 페르소나 속성이 있습니다. 이 논문에서는 그 중 두 가지 속성인 사회적 정체성(내집단 vs. 외집단)과 수사적 스타일(설득적 vs. 논쟁적)을 조사했습니다. 사회적 정체성은 의견을 가진 사람의 신뢰성에 크게 영향을 미친다는 것이 입증되었기 때문에 선택했습니다. 수사적 스타일은 비판적 사고에 가장 적합한 방식으로 논쟁적 담론의 목표를 설정하기 위해 선택했습니다. 우리의 연구는 다음 세 가지 연구 질문에 답하고자 합니다:
- 두 가지 주요 챗봇 페르소나 속성(즉, 사회적 정체성과 수사적 스타일)이 비디오 시청자의 비판적 사고에 어떻게 영향을 미치는가?
- 챗봇과 상호작용하는 것이 비디오 시청 후 형성된 시청자의 입장에 어느 정도 영향을 미치는가?
- 토론 챗봇이 시청자의 활동(즉, 비디오 시청 및 챗봇과의 토론)에 대한 참여도와 동기에 어떻게 영향을 미치는가?
이 연구 질문에 답하기 위해 우리는 북미 지역에서 36명의 참가자를 대상으로 혼합 방법 실험을 실시했습니다. 참가자들은 자신의 의견에 부합하는 비디오 에세이를 시청한 후 다양한 페르소나를 가진 챗봇과 반대 입장에서 토론을 진행했습니다. 우리는 두 가지 페르소나 속성이 참가자의 비판적 사고 수준에 영향을 미친다는 것을 발견했습니다. 특히, 외집단 정체성과 설득적 수사를 결합한 경우가 해석, 분석 및 자기 조절에 더 적합한 것으로 인식되었습니다. 또한 챗봇이 참가자가 자신의 주장을 재검토하도록 유도하지만, 비디오 에세이를 시청한 후 강화된 참가자의 입장에 미치는 영향은 미미했습니다.
이 논문은 필터 버블 상황에서 LLM 기반 챗봇이 토론 파트너로서의 역할과 비판적 사고를 유도하는 능력과 한계에 대한 경험적 발견을 제공합니다. 특히, (1) 사용자 비판적 사고와 참여도를 높이기 위해 챗봇 페르소나 설계, 특히 사회적 정체성과 수사적 스타일의 중요성을 강조하고, (2) 사용자가 입장을 타협하도록 설득하는 데 챗봇이 효과적이지 않은 행동을 식별합니다. 이 논문은 필터 버블 문제를 해결하기 위한 LLM 기반 응용 프로그램 설계에 대한 설계적 함의를 제공합니다.
2 RELATED WORK
2.1 온라인 비디오 플랫폼에서의 사회적 정체성의 중요성
이 섹션에서는 온라인 공개 비디오 플랫폼에서 비디오 제작자가 미치는 영향과 다양한 맥락에서 그 영향력을 좌우하는 요인을 설명합니다. 또한, 인플루언서의 설득력과 신뢰성에 대한 사회적 정체성의 영향을 강조하며, 이를 챗봇에서 복제하려고 시도합니다.
2.1.1 온라인 비디오 플랫폼에서 마이크로셀럽의 영향에 영향을 미치는 요인
온라인 공개 플랫폼에서 YouTuber와 같은 창작자는 상당한 팬층을 형성할 수 있으며, 그들의 콘텐츠와 소셜 미디어 상호작용을 통해 팔로워들의 인식과 의견을 형성합니다. 이는 온라인 비디오가 운동, 문화 간 커뮤니케이션, 변혁적 교육을 위한 강력한 도구가 되게 합니다. 그러나 비디오 제작자의 마이크로셀럽 상태와 개인화된 추천 알고리즘이 필터 버블 문제를 초래할 수 있다는 우려도 있습니다. 이는 시청자가 자신이 선호하는 관점만 계속 접하게 되고 반대 관점과 완전히 단절될 수 있음을 의미합니다. 일부 Z세대 관객은 정보의 감각성을 정보 리터러시보다 우선시할 수 있으며, 이는 정보의 신뢰성 평가가 사회적 소속감, 미적 요소 및 편의성에 더 기울어질 수 있음을 시사합니다. YouTuber가 팬들에게 미치는 영향력은 여러 분야에서 확인되었습니다. 예를 들어, 제품 리뷰 및 추천에서 YouTuber는 신뢰할 수 있는 것으로 간주되며, 팬들은 그들의 비디오에 제시된 틀 내에서 제품을 인식합니다. 정보 신뢰성 수준은 지각된 전문성, 신뢰성 및 호모필리(선호도 일치)에 따라 다릅니다. 정치 및 사회적 주제를 다루는 비디오의 경우, 시청자는 전통적인 미디어보다 YouTuber를 더 재미있고 친근하며 진정성이 있다고 평가합니다. YouTuber의 신뢰성 평가는 의견의 진정성 및 시청 빈도와 긍정적으로 상관관계가 있습니다. 정보 신뢰성을 넘어 YouTuber는 상호작용 빈도와 일치하는 커뮤니케이션 스타일 및 관심사로 시청자에게 헌신을 유도하고 영향을 미칠 수 있습니다.
2.1.2 사회적 정체성, 설득력, 신뢰성
사회적 정체성은 그룹 소속에 따른 자기 범주화로 "우리"와 "그들"로 구분되며, 보다 공식적으로는 내집단과 외집단으로 분류됩니다. 그룹 소속은 민족성, 성별, 연령과 같은 본질적인 부분이 될 수 있으며, 직업, 정치적 소속, 셀럽 팬덤과 같은 일시적이거나 맥락적인 부분이 될 수도 있습니다. 사회적 정체성 이론은 사회적 정체성이 개인의 사회적 행동에 영향을 미치며, 다양한 범주화 요인이 서로 다른 맥락, 방식 및 수준에서 개인의 행동에 영향을 미칠 수 있다고 주장합니다. 설득 활동에서 내집단 개인과의 동의는 자기 검증과 외부 현실 및 객관적 진실로서의 인식을 주장할 수 있습니다. 따라서 내집단 개인은 종종 외집단보다 더 높은 신뢰성과 신뢰성을 가집니다. 그러나 일부 연구에서는 반대 결과를 발견했으며, 이는 설득력에 대한 사회적 정체성의 효과가 그룹 소속을 정의하는 특정 요인과 설득자의 권력 또는 다수 상태와 같은 다른 변수에 따라 다를 수 있음을 시사합니다. 우리의 논문은 LLM 기반 챗봇의 배포를 통해 필터 버블 문제를 해결하고, 챗봇 페르소나 속성, 특히 사회적 정체성이 비디오 시청자에게 미치는 영향과 비판적 사고를 유도하는 능력에 대해 탐구하며, 기존 문헌에 보고된 실제 YouTuber의 사회적 정체성과 어떻게 유사하거나 다른지 조사하는 것을 목표로 합니다.
2.2 온라인 커뮤니티에서 비판적 사고 증진
이 섹션에서는 본 논문에서 사용된 비판적 사고의 개념을 정의하고, 온라인 미디어 소비 맥락에서 그 중요성을 검토하며, 대화식 교육에서 수사적 스타일이 비판적 사고 증진에 어떻게 중요한 역할을 하는지 강조합니다.
2.2.1 온라인 비디오 플랫폼에서의 비판적 사고
비판적 사고에 대한 단일한 통일된 정의는 없습니다. 우리의 연구에서는 비판적 사고의 핵심 개념인 "신중하고 목표 지향적인 사고"에 초점을 맞추었으며, 여기서 목표는 토론 주제에 대한 입장을 채택하는 것입니다. 이 연구에서는 Facione의 분류에 따른 여섯 가지 유형의 비판적 사고를 고려했으며, 이 분류는 우리의 맥락에 적용 가능하고 표준화된 평가 도구인 비판적 사고 자기 평가 척도(CTSAS)를 가지고 있습니다. 여기서 각 유형의 비판적 사고에 대한 정의는 다음과 같습니다:
- 해석: 문제의 맥락(예: 상황, 규칙, 절차)과 제공된 데이터(예: 판단, 논쟁, 신념)를 이해하는 능력.
- 분석: 서로 다른 논쟁 간의 관계와 추론의 암묵적 가정을 식별하는 능력.
- 평가: 논쟁의 신뢰성과 논리적 강도 또는 관련성을 평가하는 능력.
- 추론: 논쟁의 결과를 고려하고 증거를 바탕으로 결론을 도출하는 능력.
- 설명: 자신의 의견과 논쟁을 이유와 가능한 반대 의견에 대한 인식을 바탕으로 명확히 설명하고 정당화하는 능력.
- 자기 조절: 자신의 사고 과정을 의식적으로 모니터링하고 자신의 가치와 판단의 질을 반영하는 것.
온라인 미디어 소비 맥락에서 비판적 사고 능력은 디지털 리터러시 및 미디어 리터러시와 밀접하게 연결됩니다. 디지털 리터러시는 정보 리터러시의 좁은 측면으로 디지털 도구를 사용하고 신뢰할 수 있는 출처를 식별하는 능력을 강조합니다. 미디어 리터러시는 미디어 콘텐츠를 분석하고, 사용자가 편향과 숨겨진 메시지를 감지할 수 있도록 합니다. 온라인 비디오 플랫폼에서는 두 가지 기술이 결합되어 시청자가 미디어 콘텐츠뿐만 아니라 출처, 플랫폼의 알고리즘 및 콘텐츠 주변의 온라인 커뮤니티가 그들의 인식과 상호작용에 미치는 영향을 비판적으로 평가할 수 있도록 해야 합니다.
2.2.2 대화식 교육에서 수사적 스타일의 중요성
비판적 사고 관련 기술을 향상시키기 위한 많은 교육 방법이 있지만, 우리는 대화식 교육을 채택하여 구현했습니다. 이 교육에서는 학생들이 "질문, 심문 및 아이디어와 의견의 협상"을 통해 지식을 구성하며, 이는 지적으로 엄격하면서도 상호 존중적인 방식입니다. 대화는 자연스럽게 새로운 증거나 다른 관점을 노출시키므로, 어떤 맥락과 주제에서도 효과적으로 비판적 사고를 유도할 수 있습니다. 대화의 효과에 영향을 미칠 수 있는 변수는 수사적 스타일, 논쟁 구성 요소 및 구조, 맥락 등이 있습니다. 수사적 스타일 또는 대화의 여섯 가지 일반적인 유형은 설득, 탐구, 발견, 협상, 정보 탐색, 심사숙고, 논쟁적 대화입니다. 각 유형은 다른 초기 상황을 다루며 다른 목표를 달성합니다. 이 논문에서는 챗봇의 수사적 스타일을 설계하기 위해 기존 문헌을 참조했습니다. 특히 설득적 대화와 논쟁적 대화라는 두 가지 관련 수사적 스타일을 탐구했습니다. 우리는 LLM 기반 챗봇이 다양한 수사적 스타일을 활용하여 비판적 사고를 유도하고 온라인 비디오 시청자의 입장에 영향을 미치는 능력과 한계를 조사함으로써 기존 문헌을 확장하고자 합니다.
2.3 비판적 사고 지원을 위한 HCI
이 섹션에서는 비판적 사고를 개선하고 지원하는 데 관련된 HCI 연구를 검토합니다. 첫 번째 소절에서는 본 논문에서 제안한 시스템 유형인 대화형 에이전트와 관련된 시스템을 검토합니다. 두 번째 소절에서는 소셜 미디어 맥락을 목표로 하는 다른 유형의 시스템을 검토합니다. 우리의 지식으로는 소셜 미디어 맥락에서 비판적 사고를 개선하기 위한 대화형 에이전트 기반 시스템이 제안된 적이 없습니다.
2.3.1 비판적 사고 개선을 위한 대화형 에이전트
대화형 에이전트는 비판적 사고를 촉진하기 위해 다양한 인터페이스에서 채택되었습니다. 이러한 응용 프로그램을 위한 의견 훈련 및 비판적 사고 모델링을 제안하는 프레임워크도 있으며, 이는 데이터의 복잡성과 맥락별 응용 프로그램 설계의 필요성을 강조합니다. 교육 맥락에서는 대화형 에이전트가 적응형 피드백을 제공하고 사용자의 성과에 대한 자기 반성을 유도하는 데 사용되었습니다. 온라인 커뮤니티에서는 군중 토론을 촉진하고, 극단주의를 대항하며, 뉴스 콘텐츠의 정보 신뢰성을 질문하는 데 사용되었습니다. LLM의 발전은 비판적 사고와 다양한 의견을 장려하기 위한 다양한 설계를 가능하게 합니다. 이러한 시스템은 적응적이고 복잡한 추론을 제공할 수 있으며, 여러 페르소나와 의견을 가질 수 있습니다.
2.3.2 소셜 미디어에서 비판적 사고를 개선하기 위한 시스템
소셜 미디어에서 비판적 사고를 지원하고 다양한 의견을 홍보하기 위한 시스템 설계에 관한 상당한 연구가 있습니다. Balancer 및 Opinion Space와 같은 일부 연구는 의견 공간의 시각화에 중점을 두어 사용자가 자신의 필터 버블을 인식할 수 있도록 소셜 미디어 기록의 상대적 위치를 명확히 표시합니다. 다른 시스템은 사용자가 다른 관점을 접하도록 추천하거나 노출시키며, 이는 비판적 담론을 촉진하고 다양한 의견에 대한 존중을 유도하여 의견 양극화 문제를 완화할 수 있습니다. StarryThoughts는 의견 뒤에 있는 발언자의 정체성 정보를 통합하여 이 문제를 해결합니다. 그들은 사용자의 상대적 사회적 정체성이 다양한 의견의 수용에 긍정적인 영향을 미칠 수 있음을 발견했습니다.
우리의 논문은 LLM 기반 챗봇을 활용하여 온라인 공개 비디오 소셜 미디어 플랫폼에서 사용자의 비판적 사고를 유도하는 시스템을 설계함으로써 이 문헌에 기여합니다. 우리는 우리의 연구 결과가 LLM 기반 챗봇의 능력을 입증하고 이 맥락과 응용 프로그램에서 챗봇 페르소나 설계의 효과에 대한 더 많은 통찰력을 제공할 것으로 기대합니다.
3 방법론
연구 질문에 답하기 위해 2 × 2 혼합 요인 실험과 질적 후속 연구를 포함한 혼합 방법 연구를 진행했습니다. 실험의 목표는 챗봇 페르소나의 두 가지 속성: 사회적 정체성(내집단 vs. 외집단)과 수사적 스타일(논쟁적 vs. 설득적)을 평가하는 것입니다. 이 연구를 위해 두 가지 비디오 주제를 통제했으며, 사회적 정체성 × 비디오 조합 또한 피험자 간으로 설정했습니다. 즉, 참가자들은 한 주제에 대한 내집단 챗봇과 다른 주제에 대한 외집단 챗봇과 상호작용하게 됩니다. 사회적 정체성과 비디오 주제의 조합, 그리고 사회적 정체성의 제시 순서는 균형을 맞추었습니다. 종속 변수는 참가자들의 주제에 대한 입장, 비판적 사고 수준, 활동에 대한 참여도와 동기, 그리고 챗봇에 대한 인식으로 구성됩니다.
3.1 조건
RQ1에 답하기 위해 챗봇 페르소나의 두 가지 속성인 사회적 정체성과 수사적 스타일을 조사했습니다. 시청자가 YouTuber의 의견을 수동적으로 받아들이는 문제는 영향력 있는 YouTuber 주변의 소속감과 크게 관련이 있으므로 사회적 정체성(내집단 vs. 외집단)을 속성으로 선택했습니다. 우리는 챗봇에게 "같은 그룹에 속한다"고 쉽게 인식할 수 있는 정체성을 부여함으로써 시청자의 입장과 사고 과정에 대한 영향을 증가시킬 수 있다고 가정했습니다. 참가자와 챗봇의 민족성과 성별을 일치시키거나 불일치시켜 내집단(또는 외집단) 정체성을 나타냈습니다. 민족성은 사람들 간의 내집단 또는 외집단 느낌을 가장 효과적으로 만드는 요인 중 하나이므로 선택했으며, 민족성의 효과는 국가에 따라 다르므로 챗봇의 국적을 모든 참가자와 일치하도록 미국으로 고정했습니다. 성별은 낯선 사람의 신뢰성을 결정하는 데 가장 중요한 요인으로 연구된 바 있습니다. 나이, 직업, 사회경제적 지위, 종교, 정치적 신념과 같은 다른 요인들도 고려했으나, 이전 연구에서 보고된 이 요인들의 효과는 이 연구의 맥락과 관련이 없었습니다. 사회적 정체성은 각 챗봇의 이름, 프로필 사진, 짧은 소개에 내재시켰으며, 여기에는 챗봇의 국적과 대명사가 포함되었습니다.
수사적 스타일로는 설득적 스타일과 논쟁적 스타일을 선택했습니다. 설득적 수사 스타일에서는 챗봇이 시청자의 관점을 이해하면서 자신의 입장의 장점을 공유하여 시청자가 자신의 입장을 채택하도록 노력합니다. 반면에 논쟁적 스타일에서는 챗봇이 사용자를 relentlessly 공격하며 가능한 한 많은 의견, 가정 및 가치의 차이를 드러냅니다.
3.2 실험 자료
토론 주제, 즉 비디오 에세이의 내용은 우리의 실험에서 중요한 변수입니다. 세 가지 기준을 충족하는 비디오 주제를 브레인스토밍했습니다: (1) 4분 이내에 충분한 논증을 할 수 있을 정도로 단순해야 합니다; (2) 합의된 입장이 없어야 합니다; (3) 참가자가 주제에 대해 극단적인 선입견을 가지지 않을 가능성이 있어야 합니다. 최종적으로 "온라인 모임이 대면 모임보다 낫다"와 "고객은 팁을 줘야 한다"라는 두 가지 주제를 선택했습니다. 연구 시작 시 참가자들에게 각 주제에 대한 입장을 선택하도록 요청했고(그림 1 및 섹션 3.3 참조), 두 주제 모두 두 번째 및 세 번째 기준을 따르는지 확인했습니다.
비디오를 제작하기 위해 연구 책임자가 각 주제에 대한 찬성 및 반대 비디오 에세이 스크립트를 작성하여 추천 알고리즘과 참가자의 원래 입장을 재확인하도록 했습니다. 그런 다음 네 명의 연구원이 스크립트를 검토하여 다음 네 가지 기준을 따르는지 확인했습니다: (1) 톤과 단어 선택은 YouTube에서 인기 있는 비디오 에세이와 스타일리시하게 유사해야 합니다; (2) 톤과 단어 선택은 비디오에서 YouTuber 역할을 할 연구자의 연설 스타일에 자연스러워야 합니다; (3) 비디오의 입장을 지지하는 논증과 증거는 논리적으로 유효하고 일관성이 있어야 합니다; (4) 글쓰기 구조와 논증의 수 및 강도는 네 가지 스크립트 모두에서 일관성이 있어야 합니다. 스크립트는 세 번의 반복 후 최종 확정되었습니다.
비디오 제작을 위해 한 명의 연구자가 YouTuber 역할을 하여 스크립트를 나레이션하고 네 개의 비디오를 모두 편집하여 YouTuber의 정체성, 촬영 환경, 전달 스타일 및 편집 품질을 통제했습니다. 연구 팀은 모든 비디오를 검토하여 내레이터의 전달, 비디오의 시청각 품질 및 편집 스타일이 인기 있는 비디오 에세이와 스타일리시하게 유사한지 확인했습니다.
3.3 실험 설정 및 절차
연구 절차는 그림 1에 나와 있습니다. 각 사회적 정체성(내집단 vs. 외집단)에서 참가자는 주제에 대한 입장에 영향을 미치기 위해 설계된 두 가지 작업을 수행합니다. 각 라운드 시작 시 참가자는 논쟁 주제를 나타내는 진술을 제시받고 입장을 선택해야 합니다(중립 옵션이 없는 6가지 선택, 강하게 반대에서 강하게 동의까지). 첫 번째 작업에서는 참가자의 입장과 상관없이 시스템이 주제에 대한 입장을 재확인하는 4분짜리 비디오를 보여줍니다. 이는 알고리즘 강화 및 필터 버블 현상을 재현하기 위함입니다. 두 번째 작업은 참가자가 최소 7라운드 동안 반대 입장을 취하는 챗봇과 대화하는 것입니다(참가자와 챗봇 각각 7개의 메시지). 이 작업은 참가자에게 비판적 사고를 유도하고 비디오의 영향을 상쇄하며 필터 버블을 "깨뜨리기" 위해 설계되었습니다. 참가자들은 비디오를 본 후와 챗봇과 대화한 후 두 번 더 입장을 선택해야 하며, 이를 통해 각 작업이 주제에 대한 입장에 얼마나 영향을 미치는지 확인합니다. 또한 각 작업 후 비디오나 논쟁 주제에 대해 짧은 댓글을 작성하도록 하여 입장 뒤에 있는 논증의 깊이를 평가합니다. 마지막으로, 참가자들은 활동에 대한 참여도와 챗봇에 대한 인식을 보고합니다.
참가자가 두 라운드의 연구를 완료한 후, 추가 설문지를 작성하여 자신이 인식한 비판적 사고를 자기 보고하고, 각 챗봇이 사고 과정과 주제에 대한 입장에 어떤 영향을 미쳤는지, 그러한 챗봇이 적합하다고 생각하는 맥락을 제안합니다. 참가자가 설문지를 작성하는 동안 각 라운드의 경험을 기억할 수 있도록 대화 기록, 입장(비디오 전, 비디오 후, 챗봇 후) 및 비디오에 대한 댓글(챗봇 전후)을 제시합니다. 이 설문지는 첫 번째 라운드 후가 아닌 연구 마지막에 관리하여 참가자가 비판적 사고의 다양한 구성 요소를 지나치게 인식하지 않도록 하였습니다. 이는 첫 번째 라운드 끝에서 비판적 사고를 유도하여 두 번째 라운드에서 챗봇의 효과에 영향을 미칠 수 있기 때문입니다. 이와 유사한 논리로, 사전 연구 및 사후 연구 비판적 사고를 별도로 측정하는 대신 챗봇에 의해 유도된 비판적 사고를 측정하도록 설문지를 설계했습니다. 이는 참가자에게 비디오를 제공하기 전에 비판적 사고를 측정하면 비판적 사고를 증가시켜 설정을 방해하고 필터 버블을 깨뜨릴 수 있기 때문입니다.
3.4 실험 시스템 구현
실험 인터페이스는 그림 2에 나와 있습니다. 댓글 섹션과 별도의 채팅 두 가지 디자인 모델을 고려했습니다. 댓글 섹션은 전통적으로 인간 간의 사회적 상호작용을 위한 것이므로 별도의 전용 채팅 공간에 있는 AI 대화형 에이전트를 선택했습니다. 이 모델을 따라 인터페이스 레이아웃은 화면 왼쪽에 비디오, 오른쪽에 채팅 창이 있습니다. 레이아웃은 Netflix의 Teleparty와 YouTube의 Watch2Gether와 같은 친구와 함께 비디오를 시청하는 응용 프로그램을 기반으로 설계하여 사용자가 다른 YouTuber(챗봇)와 함께 비디오를 시청하는 시나리오를 자극합니다.
실험 시스템(Figure 2)은 HTML과 JavaScript로 구현되었습니다. 챗봇은 OpenAI의 GPT-4 모델을 사용하여 구현되었습니다. 챗봇에게 유명 YouTuber의 역할을 부여하고 사용자를 반대 입장을 가진 다른 YouTuber의 팬으로 설명했습니다. 챗봇에게 논쟁 주제와 사용자의 입장을 제공하고, 사용할 수사적 스타일과 대화의 목표를 지시하는 상세한 프롬프트를 제공했습니다(전체 프롬프트는 부록 D 참조). 또한 챗봇에게 반대해야 할 비디오의 스크립트를 제공했습니다. 챗봇의 프로필 사진은 텍스트-이미지 확산 모델로 생성되었습니다. 프롬프트에서 이미지를 YouTuber의 프로필 사진으로 구성하고 YouTuber의 민족성과 성별을 지정했습니다(전체 프롬프트는 부록 D 참조). 민족성과 성별 조합마다 시스템 출력을 검토하고 가장 현실적이고 자연스러운 사진을 선택했습니다. 텍스트-이미지 확산 모델을 사용하는 것은 세 가지 이유로 적합합니다: (1) 맞춤화와 구체성을 확보하여 각 이미지가 원하는 매개변수와 정확히 일치하도록 보장합니다; (2) 실제 인간 이미지의 소싱 시 발생할 수 있는 잠재적 개인정보 문제나 권한을 피할 수 있습니다; (3) 외부 편향이나 의도하지 않은 맥락이 없는 이미지를 보장하여 다양한 챗봇 페르소나 간의 일관성을 유지할 수 있습니다. 이번 연구에서는 얼굴 샷을 더 현실적이고 자연스러운 사진 구도로 생성할 수 있는 능력 때문에 다른 모델보다 Midjourney를 선택했습니다. AI 생성 사진의 한계와 윤리적 문제는 5.3절에서 논의합니다.
3.5 평가 도구와 측정
이 연구에서는 자기 보고형 양적 측정이 세 가지 있습니다: 비판적 사고, 참여도와 동기, 챗봇에 대한 인식입니다.
비판적 사고에 대한 설문지는 Critical Thinking Self-assessment Scale (CTSAS) 단축형 설문지의 일부 문항을 각색했습니다. 여섯 가지 유형의 비판적 사고 각각에 대해 두 개의 문항을 포함했습니다. 항목은 연구 맥락에 대한 관련성과 항목의 적재도를 기준으로 선택했습니다. 질문을 각색하여 일반적인 비판적 사고 기술이 아닌 챗봇과의 대화 중에 발생하는 비판적 사고를 고려하도록 "챗봇"이라는 단어를 추가했습니다. 또한, 비판적 사고의 맥락을 명확히 하기 위해 "문제"라는 단어를 "논쟁 주제"로 변경했습니다.
참여도와 동기에 대한 설문지는 Tanprasert et al.의 논문과 Situational Motivation Scale (SIMS) 설문지에서 각색했습니다. 항목은 연구 맥락에 대한 관련성을 기준으로 선택했습니다. 참여도 질문의 활동을 챗봇과의 대화로 변경하여 참가자들이 고려해야 할 활동을 명확히 했습니다.
마지막으로, 챗봇에 대한 인식 설문지는 Embodied Conversation Agents 평가 프레임워크와 인간-로봇 상호작용의 다섯 가지 주요 개념의 측정 도구에서 각색했습니다. 이 연구에서는 호감도, 인류화, 지각된 지능, 지각된 안전성, 유용성이라는 다섯 가지 구성 요소를 다루는 질문에만 관심이 있습니다. 두 설문지에서 반복된 질문("친절한", "지적인")은 제거했습니다. 유사한 질문("짜증나는" vs. "불쾌한") 사이에서는 연구 맥락에 더 적합한 문장을 선택했습니다.
3.6 참가자
Prolific을 통해 36명의 참가자를 모집하고 연구를 진행했습니다. Prolific은 전 세계적으로 120,000명 이상의 등록된 참가자를 보유한 플랫폼으로 현대 인간-컴퓨터 상호작용 및 행동 연구 연구에서 참가자 모집을 위해 널리 인식되고 있습니다. 참가자는 영어에 능통하며 챗봇 페르소나의 국적과 일치시키기 위해 미국에서 모집했습니다. 참가자의 평균 연령은 35.3세(S.D.= 11.86)입니다. 민족성 분포는 다음과 같습니다: 유럽/백인 18명, 다인종 6명, 아시아인 5명, 흑인 3명, 히스패닉 2명, 원주민 2명, 명시하지 않기를 선호한 사람 2명입니다. 성별로는 여성 15명, 남성 20명, 비이진 트랜스젠더 남성 1명이 있습니다. YouTube 플랫폼에 대한 친숙도와 사용량에서는 36명 중 21명이 매주 10-20시간의 YouTube 비디오를 시청한다고 응답했으며, 절반은 비디오를 전혀 보지 않는다고 응답했습니다. 챗봇 기술에 대한 친숙도에서는 36명 중 29명이 ChatGPT를 사용해본 적이 있으며, 29명(같은 29명이 아님)이 일반적으로 챗봇 사용에 편안함을 느낍니다. 각 참가자에게 USD 12를 보상했습니다.
3.7 데이터 분석
각 측정에 대해 해당 Likert 척도 질문의 응답을 집계하고 평균을 냈습니다. 모든 측정의 범위는 1에서 7입니다. Likert 척도의 원시 응답은 연속적으로 처리할 수 있습니다. 모든 변수를 분석하기 위해 선형 혼합 효과 모델(LMM)을 맞추었으며, 비디오 주제의 잠재적 순서 효과 및 개인 차이를 고려했습니다. 모델에는 다른 변수로 설명되지 않은 값의 변동을 나타내는 오류 항목도 포함됩니다.
참가자의 입장 변화를 위해 "강하게 반대"에서 "강하게 동의"까지의 6가지 입장을 1에서 6까지의 값으로 매핑했습니다. 그런 다음 비디오를 보기 전과 후의 입장 변화와 챗봇과 대화 전과 후의 입장 변화를 계산했습니다. 입장이 약해지거나 방향이 바뀌면(예: 강하게 동의에서 동의로 또는 동의에서 반대로) 긍정적으로 간주합니다. 그렇지 않으면 부정적으로 간주합니다. 그런 다음 Wilcoxon Signed Rank Test를 실행하여 입장 변화가 0과 유의미하게 다른지, 조건 간 입장 변화에 유의미한 차이가 있는지(p-value < .05)를 확인했습니다. 또한 순서가 입장 변화에 유의미한 영향을 미치지 않는지 확인하기 위해 테스트를 실행했습니다.
마지막으로, 참가자의 사고 과정과 챗봇에 대한 피드백에 대한 질적 설명을 분석하여 양적 결과를 설명하고 확장했습니다. Braun과 Clarke의 반사적 주제 분석을 채택했습니다. 선임 연구자가 수집한 정량적 측정 유형(입장 및 다양한 유형의 비판적 사고 및 참여도)에 따라 데이터를 인비보 방식으로 연역적으로 코딩하고, 정량적 결과를 선호하는 데이터를 편향하지 않도록 상수 비교를 수행하고 모순된 발견을 처리했습니다. 연구팀은 코드에 대해 논의하고, 데이터 해석의 갈등을 해결하며, 그룹으로 주제를 개발했습니다. 최종적으로 42개의 코드를 도출했고, 이 중 비판적 사고에 관한 4개의 하위 주제, 입장에 관한 3개의 하위 주제, 챗봇에 대한 인식과 활동에 대한 참가자의 참여도에 관한 3개의 하위 주제를 도출했습니다.
4 결과
이 섹션에서는 정량적 측정에 대한 통계 분석 결과와 이를 뒷받침하는 질적 데이터를 보고합니다. 모든 정량적 결과 요약은 그림 1에 나와 있습니다. 모든 통계 테스트의 전체 결과는 부록 F에서 확인할 수 있습니다. 질적 결과에서는 특정 참가자를 P𝑥𝑦로 지칭하며, 𝑥는 참가자 번호, 𝑦는 노출된 수사적 스타일(논쟁적 스타일은 𝐸, 설득적 스타일은 𝑃)을 나타냅니다.
4.1 비판적 사고
사회적 정체성과 수사적 스타일 모두 다양한 유형의 비판적 사고를 유도하는 데 유의미한 효과가 있음을 확인했습니다(그림 3 참조). 총 비판적 사고 점수의 평균은 7점 만점에 5.11점(S.D. = 1.18)입니다. 구체적으로, 해석, 분석, 총 비판적 사고 점수에서 내집단 챗봇이 외집단 챗봇보다 더 우수한 주 효과가 있으며, 자기 조절에서 효과의 경향(p < 0.1)이 나타났습니다. 해석과 설명에서는 설득적 챗봇이 논쟁적 챗봇보다 더 우수한 주 효과가 있으며, 평가와 총 점수에서 효과의 경향이 나타났습니다. 마지막으로, 두 변수 간의 자기 조절에서 유의미한 상호작용 효과가 있었고, 해석과 분석에서 경향이 나타났으며, 외집단과 설득적 대화의 조합이 세 가지 범주 모두에서 가장 높은 점수를 받았습니다.
질적 데이터 분석 결과, 챗봇은 페르소나에 상관없이 많은 참가자가 자신의 관점과 주장을 재검토하도록 유도했습니다. 참가자들은 챗봇이 일관되고 설득력 있게 다양한 전략을 사용했다고 보고했습니다(P33𝐸). 예를 들어, 챗봇은 참가자가 답변을 깊이 생각하게 만드는 질문을 하거나(P1𝑃), 설득력 있는 반대 주장을 제시했습니다(P8𝑃). 참가자들이 챗봇의 주장에 동의하지 않더라도 왜 동의하지 않는지에 대해 더 깊고 정확하게 반성했습니다. 예를 들어, P13𝑃는 팁 주기 주제에 대해 "챗봇이 접근하려는 방식이 쉽지 않다는 점에서 동의하지 않았습니다. 그들이 동의하지만 방법은 싫어하는 것을 생각하게 만들었습니다."라고 언급했습니다.
두 수사적 스타일을 비교해보면, 설득적 챗봇과 상호작용한 경우 참가자들은 챗봇의 주장의 강도를 평가할 때 주로 비판적 사고가 일어났고, 논쟁적 챗봇과 상호작용한 경우 참가자들은 자신의 주장을 강화할 때 비판적 사고가 일어났습니다. 설득적 챗봇과 상호작용한 참가자들은 챗봇이 "좋은 점을 제기했다"(P17𝑃)거나 "좋은 예를 들고 생각을 명확하고 간결하게 제시했다"고 설명했습니다(P5𝑃). 챗봇이 약한 주장을 했을 때, 참가자들은 그 이유를 명확히 설명했습니다. 예를 들어, "그들은 같은 응답이나 비판을 반복했다"(P6𝑃). 논쟁적 챗봇과 상호작용한 참가자들은 챗봇이 비판적 사고 과정에서 주장을 방어하는 데 어떤 영향을 미쳤는지 설명했습니다: "챗봇은 나의 주장을 강화하도록 만들었다"(P21𝐸) 또는 "나는 그들의 주장을 반박할 수 있었다"(P23𝐸). 더 나아가, 논쟁적 챗봇과 상호작용한 참가자들은 갈등의 근본 원인을 더 많이 언급했습니다. 예를 들어, "챗봇과의 상호작용은 이 문제가 보편적 진리가 아니라 개인적 선호의 문제임을 인식하게 만들었다"(P38𝐸).
이러한 발견의 한계는 일부 참가자들이 문화적 지식과 경험을 필요로 하는 주제에 대해 챗봇이 비판적 사고를 유도하는 데 비효율적이라고 느꼈다는 점입니다. 참가자들은 챗봇이 "문화적 또는 사회적 문제를 논의할 때 단절된 것처럼 보였다"(P11𝑃)고 언급하며, "챗봇이 맥락을 완전히 이해하지 못한 채 가정을 하고 있다"고 지적했습니다(P38𝐸). 팁 주기 토론 주제는 이 문제를 강조했습니다. 예를 들어, P27𝐸는 "챗봇이 문화를 구분하지 않고 미국의 저임금 노동자에 대한 태도를 전 세계에 적용하려고 했다"고 설명했습니다. 이 주제에 대한 포괄적이고 맥락적인 이해의 부족은 비판적 사고를 유도하는 데 있어 챗봇의 주장을 덜 효과적으로 만듭니다.
4.2 주제에 대한 입장
정량적 결과에 따르면 비디오는 참가자의 원래 입장을 강화하는 데 효과적이었습니다(mean = -0.22, S.D. = 0.61, V = 58.5, p-value = 0.00407 **). 그러나 비디오를 시청한 후 챗봇의 주장은 참가자의 입장에 거의 영향을 미치지 않았습니다(mean = 0.03, S.D. = 0.60, V = 42.5, p = 0.8048 (n.s.)). 하지만 두 수사적 스타일 간 입장 변화에 차이가 있는 경향이 있습니다(W = 549, p = 0.09), 특히 온라인 대 대면 토론 주제에서 더 두드러졌습니다. 이는 사회적 이슈와 관련이 없는 개인적 선호 주제에서는 설득적 수사가 참가자를 설득하는 데 더 효과적일 수 있으며, 논쟁적 수사는 참가자의 자신의 의견을 강화하는 데만 효과적일 수 있다는 해석이 가능합니다. 입장 변화의 전체 표는 부록 F.2에 있습니다.
질적 결과는 챗봇이 참가자의 입장에 영향을 미치는 다양한 논증 유형을 제공하는 통찰력을 제공합니다. 챗봇에 의해 입장이 바뀐 참가자들은 챗봇이 자신이 이전에 고려하지 않았던 관점이나 증거를 제시했다고 보고했습니다. 예를 들어, P3𝑃는 "온라인 대 대면 회의" 주제에 대해 강하게 반대에서 약하게 반대로 입장을 바꾸었으며, "좁게 생각하고 있었는데 그녀가 내 시야를 넓혀줬다"고 말했습니다. 또 다른 예로 P39𝐸는 "고객은 팁을 줘야 한다"라는 진술에 대해 찬성에서 약간 반대로 입장을 바꾸었으며, 챗봇이 논쟁의 범위를 체계적 불의로 확장하여 "팁에 의존하는 것이 공정한 임금에 부정적인 영향을 미치고, 나쁜 관행을 조장한다는 것을 깨달았다"고 설명했습니다.
반면에, 약한 논증은 참가자의 원래 입장을 더욱 강화시킬 수 있습니다. 일부 경우, 설득적 챗봇의 논증이 너무 약하여 참가자가 챗봇의 입장을 타협하게 만들거나(P10𝑃, P12𝑃), 참가자의 입장을 받아들이도록 설득할 수 있었습니다(P41𝑃). 챗봇의 논증을 분석한 결과 네 가지 뚜렷한 약점을 발견했습니다. 첫째, 챗봇의 많은 논증이 반복적이어서 참가자들은 같은 응답이나 비난을 반복한다고 언급했습니다. 예를 들어, P35는 "그들은 같은 두 가지 공격을 매번 사용했다"고 말했습니다. 둘째, 챗봇의 논증은 종종 맥락적 인식이 부족하여 "사용자가 제공한 정보(즉, 관점, 배경 정보 또는 기타 요소)를 사용하여 더 강력한 논점을 구축하지 못했다"고 언급했습니다(P10𝑃). 셋째, 챗봇의 논증은 주제에 대한 "직접적인 경험"이 부족하여 의견보다는 "현실 세계의 예시"에 의존하는 경우가 많았습니다(P11𝑃). 마지막으로, 챗봇의 논증은 논쟁에 새로운 통찰을 제공하지 않을 때 약하게 인식되었습니다. 이 제한은 이미 해당 주제에 대해 충분히 생각해본 참가자에게서 발생합니다(P38𝐸). 이러한 모든 경우에서 참가자들은 입장을 바꾸지 않더라도 챗봇과의 대화에서 많은 비판적 사고 사례를 보여주었습니다.
4.3 챗봇에 대한 인식 및 활동 참여도
전반적으로 참가자들은 챗봇에 대해 약간 긍정적인 인식을 가지고 있습니다(mean = 4.90 (7점 만점), S.D. = 1.38). 챗봇은 인류화(mean = 5.01, S.D. = 1.67)와 지각된 안전성(mean = 5.67, S.D. = 1.67)에서 긍정적인 점수를 받았지만, 호감도(mean = 4.47, S.D. = 1.74), 지각된 지능(mean = 4.68, S.D. = 1.56), 유용성(mean = 4.65, S.D. = 1.93)에서는 낮은 점수를 받았습니다. 정량적 결과는 수사적 스타일이 챗봇의 호감도, 지각된 지능, 지각된 안전성에 유의미한 영향을 미치며, 설득적 챗봇이 모든 범주에서 논쟁적 챗봇보다 더 우수함을 보여줍니다.
참가자들은 행동적(mean = 6.14, S.D. = 0.73), 감정적(mean = 5.58, S.D. = 1.43), 인지적으로(mean = 5.12, S.D. = 1.13) 활동에 참여했으며, 활동에 대한 내재적 동기가 있었습니다(mean = 5.60, S.D. = 1.38). 수사적 스타일은 참가자의 참여도, 특히 감정적 참여도, 인지적 참여도, 무동기 상태에 유의미한 영향을 미치며, 설득적 챗봇이 일관되게 논쟁적 챗봇보다 더 우수했습니다.
질적 데이터 분석을 통해 챗봇이 인간적 동기, 상호적인 설득 의지, 개인적 선호라는 세 가지 측면에서 부족함을 느끼게 하여 경험을 부자연스럽고 즐겁지 않게 만든다는 것을 밝혔습니다. 첫 번째 측면은 설득적 챗봇과 논쟁적 챗봇 모두에 영향을 미치며, 챗봇에 대한 중간 범위의 인식을 설명하는 데 도움이 됩니다. 두 번째와 세 번째 측면은 엄격히 논쟁적 챗봇에만 나타나며, 챗봇에 대한 인식과 참여도에서 설득적 챗봇보다 낮은 점수를 받는 잠재적 이유를 설명합니다.
첫째, 참가자들은 챗봇이 자신의 관점을 방어할 내재적 동기 없이 단지 논쟁을 위해 논쟁하는 것처럼 보인다고 지적했습니다. 참가자들은 "챗봇이 이해하려고 하지 않고 단지 반대하기 위해 빠르게 반대한다"(P21𝐸)고 말하며, 이를 "반응적"(P20𝐸)이고 "예측 가능하다"(P11𝑃)고 여겼습니다. 이 특성은 설득적 챗봇과 논쟁적 챗봇에서 다르게 작동합니다. 설득적 챗봇은 명확한 입장으로 시작하지만 이를 약하게 방어하여 관점이 "미리 정해진" 것처럼 보이게 합니다(P9𝑃). P41𝑃는 설득적 챗봇이 끝까지 자신의 입장을 채택하도록 설득할 수 있었다고 말하며, "대부분의 실제 사람들은 깊이 신경 쓰는 입장을 바꾸는 데 훨씬 더 저항적일 것"이라고 말했습니다. 유사하게, P11𝑃는 챗봇이 후원자처럼 들리지만 자신의 입장을 지지하기 위해 어떤 위험도 감수하지 않았기 때문에 "부자연스럽다"고 느꼈습니다. 논쟁적 챗봇은 "이해하려고 하지 않고 빠르게 반대한다"(P21𝐸)고 평가되었습니다. 때때로, 이들은 "공격적이고 거만하다"며 무례하게 느껴질 정도로 참가자의 성격을 공격하고 논쟁 주제에 집중하지 않았습니다(P19𝐸). 이는 챗봇의 호감도와 참가자의 감정적 참여도를 크게 감소시켰으며, 일부 참가자들은 챗봇이 민감한 주제를 논쟁할 때 사용을 꺼리게 만들었습니다(P22𝐸, P28𝐸, P32𝐸).
둘째, 논쟁적 챗봇의 타협하지 않는 극단적인 입장은 토론에서 기대되는 상호성을 방해하며, 이는 호감도와 참가자의 감정적 참여도에 영향을 미친 것으로 보입니다. 참가자들은 챗봇의 입장의 극단성부터 논쟁에 대한 수용성까지 많은 측면에서 상호성을 기대했습니다. 예를 들어, P23𝐸는 챗봇과 자신의 주제 접근 방식의 진지함 수준의 불일치가 충격적이었다고 보고하며, "[챗봇은] 매우 의도적으로 여유로운 의견임에도 불구하고 매우 논쟁적이었다"고 말했습니다. 일부 참가자들은 토론에서 양측이 서로의 의견을 경청하고 설득될 수 있기를 기대했습니다(P30𝐸). 또한, 참가자가 챗봇에게 자신의 논증을 설명해달라고 요청할 때, 챗봇은 "시청자에게 자신의 관점이나 아이디어를 더 확장하도록 요청해야 한다"(P33𝐸)고 상호적으로 대답해야 한다고 생각했습니다. 설득에 대한 개방성의 부족은 참가자들에게도 고집스러운 입장을 취하게 만들 수 있습니다. 한 참가자는 "그들이 여러 점에 대해 나와 논쟁했기 때문에 화가 났다. 나는 단지 고집을 부리기 위해 그들과 반대하고 싶었다"(P40𝐸)고 말했습니다.
마지막으로, 논쟁적 챗봇이 개인적 선호를 인정하지 않거나 거부하는 것은 의견이 인정되는 주제를 논쟁할 때 명백하게 드러나며, 이는 유용성과 인지적 참여도에 영향을 미친 것으로 보입니다. 참가자들은 논쟁적 챗봇이 자신이 중요하지 않다고 여기는 주제에 지나치게 진지하게 접근하며 "흑백 사고"를 한다고 느꼈습니다(P34𝐸). 예를 들어, P27𝐸는 온라인 대 대면 모임 논쟁에서 "나는 기본적으로 '모임의 유형에 따라 다르다'고 말했고, 가족 모임과 같은 대다수의 행사와 모임은 대면이 더 풍부하다고 말했다. 챗봇은 우리는 보편적 답변을 찾아야 하며, 가상 모임이 최선이 아니라는 모든 답변은 향수나 개인적 선호라고 주장했다. 인간적 관점에서 이 문제를 보는 능력이 없었다"고 설명했습니다. 이 특성은 논쟁적 챗봇이 "개인적인 의견이 중요한 주제"에는 적합하지 않을 수 있음을 시사합니다(P38𝐸). 이러한 맥락에서 사용자는 챗봇이 개인적 의견과 다양한 관점을 인정하지 못하는 것을 제한적으로 느낄 수 있으며(P23𝐸), 대화를 "시간 낭비"로 여길 수 있습니다(P19𝐸).
5 토론
5.1 결과 해석
평가 연구에서 LLM 기반 챗봇이 비판적 사고를 유도하는 데 효과적이라는 것을 발견했습니다. 그러나 비디오를 본 후 형성된 참가자의 입장에는 유의미한 영향을 미치지 않았습니다. 챗봇 페르소나의 두 가지 속성—수사적 스타일과 사회적 정체성—은 비판적 사고, 참여도, 동기 및 챗봇에 대한 인식 수준에 유의미한 영향을 미쳤습니다. 이는 LLM을 통해 가능해진 챗봇 페르소나 설계의 중요성을 강조하며, 온라인 인플루언서에 대응하는 데 중요한 역할을 할 수 있습니다.
수사적 스타일은 토론 대화의 방향과 참가자가 참여하는 비판적 사고 유형에 큰 영향을 미쳤습니다. 4.1절에서 우리는 설득적 챗봇의 상호적 개방성이 참가자들이 챗봇의 주장을 더 면밀히 평가하도록 만들고, 논쟁적 챗봇은 참가자들이 자신의 주장을 강화하고 갈등의 근원을 발견하도록 만든다는 것을 발견했습니다. 이러한 발견은 선택한 두 수사적 스타일의 이론적 프레임워크와 일치합니다. 앞으로는 챗봇의 수사적 스타일과 입장의 극단성을 조정하여 챗봇의 단호함과 설득에 대한 개방성 사이의 균형을 맞춰야 합니다. 이 균형은 논쟁이 단순한 주장 강도뿐만 아니라 자신의 입장을 재고하고 재평가하는 개방성을 통해 비판적 사고를 향상시킬 수 있기 때문에 중요합니다. 향후 연구는 논쟁자의 전략을 특징짓는 기존 연구, 설득력 예측, 논쟁자와 청중 간의 사회적 관계를 바탕으로 LLM 모델과 프롬프트를 미세 조정하여 챗봇의 주장의 효과를 높이고 더 고급 비판적 사고 기술을 촉진해야 합니다.
사회적 정체성(민족성과 성별로 대표)은 비교적 작은 영향을 미쳤으며, 자기 보고형 비판적 사고 측정의 하위 집합에서만 유의미한 효과를 보였습니다(4.1절). 그러나 사회적 정체성의 가장 중요한 효과는 자기 조절에서 관찰되었으며, 이는 개인의 가치, 신념 체계 및 인지 과정을 포함한 내재된 측면에 대한 성찰을 의미합니다. 이는 사회적 정체성 단서가 순간의 정보 신뢰성에만 영향을 미치는 것이 아니라 사용자로 하여금 내재된 편견과 가정을 비판적으로 검토하고 재평가하도록 유도하여 더 철저하고 반성적인 사고를 발전시키는 데 기여할 수 있음을 보여줍니다. 또한, 외집단 정체성과 설득적 수사의 상호 작용이 자기 조절을 촉진하는 데 가장 효과적이라는 결과는 의견을 전달하는 사람의 인구통계학적 정체성이 의견의 수용 방식에 영향을 미칠 수 있다는 기존 문헌을 뒷받침합니다. 이러한 효과는 가상 에이전트에게도 적용될 수 있음을 보여줌으로써 챗봇 페르소나가 사용자의 인지 과정에 미칠 수 있는 잠재적인 영향을 시사합니다.
마지막으로, 참가자의 입장에 미친 혼란 변수의 세 가지 중요한 효과를 논의하고자 합니다(4.2절). 첫째, 비디오가 참가자의 원래 입장을 강화하는 데 유의미한 영향을 미친다는 점을 주목해야 합니다. 둘째, 참가자들의 온라인 대 대면 모임 주제에 대한 원래 입장이 팁 주제에 비해 비디오에 의해 더 쉽게 강화된다는 점을 관찰했습니다. 이러한 효과의 원인을 탐구하기 위해 챗봇과의 대화 전후의 입장 변화를 유사한 테스트로 조사한 결과, 수사적 스타일이 온라인 대 대면 모임 주제에서만 입장 변화에 유의미한 영향을 미친다는 것을 발견했습니다. 이는 설득적 챗봇이 이 주제에서 논쟁적 챗봇보다 입장 변화를 유도하는 데 더 효과적이라는 것을 의미합니다. 이러한 결과를 바탕으로, 일반적으로 온라인 대 대면 모임 주제에 대한 참가자의 입장이 새로운 논쟁에 더 취약할 수 있다고 의심합니다. 이 효과가 다른 측정값에 미치는 방식과 정도는 향후 연구에서 더 탐구해야 합니다.
5.2 HCI 연구에 대한 함의
우리 연구는 넓은 범위의 HCI 연구자와 실무자에게 세 가지 함의를 제공합니다:
- LLM 기반 챗봇에 페르소나 부여: 연구는 LLM 기반 챗봇에 페르소나를 내재시키는 것의 중요한 역할을 강조합니다. 특히 프로필 사진을 통해 표현된 사회적 정체성이 챗봇의 비판적 사고 유도 능력에 미치는 영향에 대한 발견은 개별 사용자와 공감할 수 있는 적응형 페르소나 설계를 개발할 가능성을 강조합니다. 이러한 적응성은 정신 건강 지원 및 재정 상담과 같이 챗봇의 신뢰성과 친근함이 중요한 맥락에서 특히 관련이 있습니다.
- 사용자의 입장에 영향을 미치는 AI의 역할: 비판적 사고를 유도하는 능력에도 불구하고, AI가 사용자의 입장을 변경하려고 할 때의 고유한 한계를 드러냅니다. 이는 AI가 생성한 예방접종 찬성 메시지가 인간의 메시지보다 더 설득력이 있다는 연구와 대조됩니다. 이는 예방접종 메시지가 "정확성, 관련성, 설득 시도"를 위해 신중하게 선택된 반면, 우리의 연구는 인간의 큐레이션이나 정제가 없이 챗봇이 반대 주장을 응답해야 하기 때문일 가능성이 큽니다. 향후 연구는 이 도메인에서 인간 논쟁자의 행동과 전략을 모방하여 AI의 효율성을 향상시키는 데 초점을 맞추어야 합니다.
- 다른 미디어 맥락에서 비판적 사고 유도: YouTube와 유사한 환경에서의 챗봇 설계의 효과는 뉴스 포털, 팟캐스트 및 책과 같이 사용자가 심층적이고 주제 중심의 콘텐츠와 상호작용하는 다른 미디어 맥락에서도 적용 가능성을 시사합니다. 그러나 Twitter나 TikTok과 같은 더 인터랙티브하고 다중 주제 기반의 스트림 기반 미디어에 대한 전이 가능성은 제한될 수 있습니다. 이러한 플랫폼에 시스템을 적응시키려면 페르소나 설계뿐만 아니라 사용자와 챗봇 간의 상호작용 모델도 재고해야 합니다.
5.3 챗봇 생성에서의 AI 편향
이 연구에서 AI를 중립적인 모델로 취급하지만, 사용한 AI 모델에는 많은 편향이 존재합니다. 이러한 편향이 성능에 영향을 미치고 사용 가능한 맥락에 한계를 부과할 수 있음을 인식합니다.
챗봇의 프로필 사진 생성을 위해 Midjourney 모델을 채택한 것은 세 가지 방식으로 일반적인 인간 외모에 대한 편향을 도입합니다. 첫째, 생성된 이미지가 실제 사진과 유사하지만 이상적인 아름다움을 나타내는 경향이 있습니다. 둘째, 시스템은 성별과 민족성 조합에 따라 다른 환경, 패션 및 표정을 생성합니다. 예를 들어, 비이진 YouTuber의 모든 사진에는 많은 피어싱과 문신이 있습니다. 시스템의 미적 기준과 정체성 고정관념은 기존 사회적 편향을 강화할 수 있습니다. 셋째, 생성된 이미지의 품질과 정확성은 특정 민족과 성별의 데이터셋에 따라 다릅니다. 모델은 인종과 성별을 지정하지 않으면 백인 남성 이미지를 생성하는 경향이 있습니다. 그러나 이러한 품질 격차는 다른 요인이 지정될 때 달라질 수 있습니다. 예를 들어, 범죄자 이미지를 생성할 때보다 변호사 이미지를 생성할 때 더 어두운 피부색이 많이 나타납니다. 연구진은 모든 페르소나에서 일관된 이미지 품질을 제공하기 위해 변수 조합을 사용하여 프롬프트 템플릿을 개발했습니다. 그러나 이러한 해결책은 텍스트-이미지 AI 기술의 체계적인 문제를 해결하지 않으며, 나이 및 종교와 같은 인종 및 성별 외의 요인에 대한 유사한 편향에 대한 제한적인 전이 가능성을 가질 수 있습니다.
챗봇 응답에 GPT-4를 사용하는 것도 자체적인 도전과 편향을 제공합니다. 예를 들어, 기존 연구에 따르면 ChatGPT는 정치적 논쟁에서 보수적 견해보다 자유주의적 이념에 더 기울어지는 경향을 보입니다. 따라서 챗봇은 자유주의적 관점에 비해 보수적 관점에 대한 강력한 논거를 제공하지 못할 수 있습니다. 이 문제는 훈련 데이터에서 발생하는 편향에서 비롯됩니다. 즉, 챗봇은 모순되어야 할 미디어에 의해 편향될 수 있습니다. 모델의 다른 측면에서의 편향은 크게 탐구되지 않았지만, 같은 이유로 다른 주제에서도 편향이 발생할 가능성이 있습니다. 토론 챗봇의 적절한 사용 맥락을 결정하기 위해서는 모델의 편향의 성격에 대한 더 광범위한 연구와 다양한 주제에서 강력한 담론을 생성하기 위한 데이터 보정 가이드라인이 필요합니다.
5.4 한계 및 향후 연구
우리 연구에는 세 가지 주요 한계가 있습니다. 첫째, 비디오 주제 선택과 자체 제작 비디오의 품질은 참가자에게 미치는 영향 정도에 영향을 미칠 수 있으며, 챗봇이 이를 상대적으로 더 쉽게 극복할 수 있게 할 수 있습니다. 연구에서는 고의적으로 논란이 크지 않거나 민감하지 않은 주제를 선택했습니다. 그러나 비디오가 시청자의 신념을 깊이 강화하면 챗봇이 설득력 있게 제시하더라도 대안적 관점에 더 저항적일 수 있습니다. 이는 시청자가 비디오에 매우 몰입하여 챗봇의 개입을 무시할 정도로 참여도가 높은 경우 특히 그렇습니다. 또한, 사실적이거나 기술적인 주제에 초점을 맞춘 비디오는 "인공 환각" 현상으로 인해 챗봇 상호작용에 도전 과제를 제기합니다. 이러한 현상은 챗봇이 사실인 것처럼 만들어낸 사실을 공유할 때 발생하며, 이는 학계의 많은 ChatGPT 응용 프로그램에서 관찰되었습니다. 정보의 신뢰성이 논쟁의 강도에 중요한 경우, 이러한 실수는 사용자가 올바른 정보를 알고 있거나 찾을 수 있는 경우 챗봇의 입장을 심각하게 약화시킬 수 있습니다. 그러나 사용자가 이를 알지 못하면 챗봇의 주장은 허위 정보를 퍼뜨릴 수 있습니다. 연구에서는 이를 관찰하지 않았지만, 향후 연구에서는 이 문제에 대한 안전 장치를 설계해야 합니다.
둘째, 연구에서는 성별과 민족성을 통해 챗봇의 사회적 정체성을 조사했지만, 이는 내집단 또는 외집단 정체성에 대한 미묘한 인식을 완전히 포착하지 못합니다. 사회적 정체성의 복잡한 성질은 이러한 측면을 넘어서 확장되며, 우리의 설정은 모든 개인의 경험과 공감하지 않을 수 있습니다. 향후 연구에서는 직업, 나이, 종교와 같은 추가 사회적 정체성 차원을 탐구하여 챗봇 페르소나와 비판적 사고에 미치는 영향을 이해할 수 있습니다. 또한, 논쟁 주제에 사회적 정체성을 맞춤화하면 다양한 맥락과 인구통계학적 특성에 대한 챗봇 페르소나의 조정을 이해하는 데 도움이 될 수 있습니다.
마지막으로, 연구는 단기적이며 통제된 환경에서 수행되었습니다. 연구에서는 참가자들이 하나의 비디오만 시청했지만 실제 필터 버블은 유사한 의견의 여러 비디오를 제공할 수 있습니다. 또한, 비디오는 연구를 위해 특별히 제작되었기 때문에 참가자는 비디오 제작자의 팬이 아니며, 이들에 의해 덜 영향을 받을 수 있습니다. 향후 연구에서는 보다 자연스러운 환경에서 연구를 복제하려고 시도해야 합니다.
6 결론
이 연구에서는 YouTube의 필터 버블에 몰입한 사용자의 비판적 사고를 촉진하기 위한 도구로서 토론 챗봇을 소개했습니다. 연구는 사회적 정체성과 수사적 스타일이라는 페르소나 속성을 기반으로 시청자의 비판적 사고에 미치는 영향을 조사했습니다. 혼합 방법 접근법을 통해 챗봇 페르소나가 시청자가 비디오 시청자와 상호작용하고 비판적 사고를 유도하는 능력에 유의미한 영향을 미칠 수 있음을 발견했습니다. 그러나 참가자의 입장에 더 영향을 미치고 비디오의 영향을 상쇄하기 위해 챗봇의 주장을 더 개선해야 할 많은 측면이 있습니다. 연구의 기여는 LLM 기술을 비판적 사고 유도에 사용하는 아이디어뿐만 아니라 온라인 필터 버블에 대응하기 위한 챗봇 페르소나 설계와 사용자 입장 변화에 대한 챗봇의 한계에 대한 초기 통찰력 제공입니다. 향후 연구는 챗봇의 역량을 더욱 정교화하고 이러한 개입이 적용되어야 할 광범위한 맥락을 탐구해야 합니다.