Search
🆕

[논문 리뷰][arXiv 2023] Explainable Multimodal Emotion Recognition

생성일
2024/07/07 13:57
태그
paper-review
안녕하세요! 이번에는 arXiv 논문을 가져와봤습니다. 2023년 논문이지만 6번의 수정있었고 최종적으로 2024년도ver6으로 읽었기 때문에 2024년도 논문이라 봐도 무방할 것 같습니다. 논문 페이지 하단에 under review라고 적혀있는거 보니 아직 심사중인 것 같습니다.
학회나 저널 논문이 아닌 arXiv인 이 논문을 읽은 이유는 쉽게 설명할 수 있는데요. Multimodal Emotion Recogntion(MER)에 관심이 있는 사람이라면 무조건 알아야하는 challenge가 있습니다. 이 challenge는 MER2023, MER2024로 2023년 시작으로 현재 MER2024가 진행되고 있는데요.
MER2023 challenge의 큰 컨셉은 Robust하게 MER을 수행해보자!가 컨셉인데요. 큰 컨셉 안에 세부 track을 나눠 challenge를 진행하게 됩니다. 이번 MER2024는 IJCAI와 ACM MM과도 함께 진행하는 것 같더라구요. 나중에 MER2025가 열리게 된다면 참여해서 논문까지 작성해보고 싶네요. 아무튼! 말이 길었습니다. 이번에 MER2024에 새롭게 추가된 track이 OV MER인데요. 바로 open vocabulary Multimodal Emotion Recognition입니다.
이 track이 어떻게 생겼나 살펴보니 지금 제가 리뷰하는 논문이 인용이 되어 있었고, 본 논문에서 새로운 EMER이라는 task를 제안하는 것을 확인하였습니다. MER2024는 본 논문을 기반으로 EMER task를 OV MER track으로 지정한 것이죠. 이런 이유가 있으니 안읽어볼 이유가 없겠다는 생각에 바로 읽기 시작했습니다. (나중에 MER2024가 어떤 형식으로 이뤄지는지 baseline은 어떻게 구성되어있는지 정리해보는 것도 좋을 것 같습니다.)
자, 그럼 리뷰 시작하도록 하겠습니다!

<1. Introduction>

인공지능이 발전하고 이를 사람들이 많이 사용하면서, 사람과 밀접한 관련이 있는 감정 인식도 덩달아 활발히 연구가 진행되었습니다. 감정 인식의 연구를 크게 두 가지로 나눠 살펴보면 ‘어떻게 크고 더 현실적인 데이터셋을 모으는가’‘얼마나 효과적인 아키텍쳐를 만들 수 있을까’로 나눠 진행된다고 보면 됩니다. 하지만 논문의 저자는 이 두가지에 집중하기 보다는 감정의 라벨에 대해서 집중하였습니다. 바로, 감정의 라벨이 모호하다는 것이죠.
감정의 라벨이 모호하다는 의미에 대해서 좀더 말해보겠습니다. 동일한 상황에서 사람은 동일한 감정을 느끼지 않습니다. 사람은 감정을 주관적으로 느끼기 때문에 감정 데이터셋을 라벨링 할 때도 주관적으로 라벨링 되었을 확률이 높습니다. 그리고 이러한 주관적으로 라벨링된 감정 라벨은 일관성이 없을 뿐더러 신뢰하기도 어렵습니다. 여기에 이를 기반으로 연구된 수많은 모델이 실제로 real-world에서 잘 작동할 것이라는 생각은 당연히 하기 어렵습니다.
그렇다면 감정 데이터셋은 주관적인 감정 라벨링을 막기 위해서 어떤 기법을 사용했을까요? 한 샘플에 대해서 감정을 라벨링한다고 했을 때 한 사람이 annotation하는 것이 아닌 여러 사람이 annotation을 하게 합니다. 그리고 여러 사람이 동시에 한 샘플에 대해서 annotation을 하면 거기서 가장 많이 선정된 감정을 라벨로 가져가게 되는 것이지요. MER에서 유명한 데이터셋인 IEMOCAP 또한 이러한 방식으로 감정을 라벨링하였습니다. 그런데 이렇게 라벨링할 경우, 라벨 목록에 없는 감정은 무시될 수 있고, 다수결로 선정하기 때문에 적게 선정된 감정 또한 무시될 수 있습니다. 이 때문에 감정 라벨이 부정확하게 라벨링 될 수 있는거죠.
그래서 본 논문의 저자는 신뢰할 수 있으면서도 미묘한 감정도 다루기 위해서 Explainable Multmodal Emotion Recognition (EMER)이라는 새로운 task를 제안합니다. 기존의 감정인식의 경우 sad, neutral, happy와 같이 각 샘플에 대해서 어떤 감정이라는 결과만 알려줬다면, EMER은 이러한 예측을 어떻게 하게 되었는지에 대한 설명을 제공합니다. 각 감정에 대해서 어떻게 식별했는지를 설명함으로써 라벨링의 신뢰성을 올릴 수 있습니다. 여기에 추가로, Large Language Model (LLM)의 추론 능력을 이용해서 unimodal의 clue를 명확히 하고 기존 보다 풍부한 감정 category로 포괄적인 multimodal description을 생성할 수 있습니다.
또 여기서 EMER이라는 task를 살펴보면 단순히 explainable만 붙은게 아니라 multimodal이라는 단어가 붙은 것을 볼 수 있습니다. 논문의 저자는 감정이 얼굴의 미세한 표정이나 제스쳐, 운율 같이 다양한 모달리티를 통해서도 표현되는 것에 집중하였습니다. 이에 EMER은 감정 관련 task를 다룰 수 있는 공토 포맷을 제공하여 multimodal clue를 통합해서 더 정확한 감정 라벨을 생성하는 것을 목표로 합니다. 공통 포맷은 감정을 인식할 때 다양한 clue(운율이나 얼굴 표정.. etc)를 통합하여 일관된 방식으로 설명하는 방법이라고 이해하시면 됩니다.
그리고 마지막으로 감정은 복잡하기 때문에 기존의 데이터셋처럼 label space를 몇 가지 category로 제한하는 경우, annotator가 생각하는 감정이 label space에 없을 수도 있습니다. 이에 반해 EMER은 label space를 제한하지 않고 open-vocabulary 방식으로 더 풍부하게 label을 생성할 수 있습니다.
Figure1을 통해서 EMER 데이터셋을 단편적으로 볼 수 있는데. 기존의 감정 인식에서 사용되는 label이 one-hot label이라고 표현할 수 있는데 단순히 ‘surprise’라고 라벨링 되어 있는 것을 볼 수 있습니다. 여기에 EMER은 ‘EMER description’을 통해서 각 모달리티의 clue를 통해 어떠한 감정이 발생하는지 설명하고 있고, 여기에서 감정을 추출하여 ‘OV labels extraction from the EMER’로 표현하였습니다. 확실히 기존의 label인 ‘surprise’에 비해서 ‘nervous, dissatisfied’와 같은 감정이 더 추가된 것을 볼 수 있습니다.
introduction을 마무리하면, 본 논문의 contribution을 정리하면 다음과 같습니다.
신뢰할 수 있고 정확한 감정인식 task인 EMER을 새롭게 제안함. 이를 위해, 식별된 감정의 증거와 추론 과정을 제공하였음. 또한 감정과 관련된 단서들을 이용하여 새롭게 라벨링함.
연구를 촉진시키기 위해 데이터셋과 baseline, 평가지표를 구축하였음
감정 인식 외에도, EMER은 multimodal LLM(MLLM)을 평가하는 벤치마크로 사용될 수 있음

<2. Related work>

related work는 multimodal emotion recognition과 open vocabulary learning에 대해 나눠 작성되어 있습니다.
multimodal emotion recognition에서는 논문의 저자가 왜 EMER task를 제안하게 된 배경에 대해서 더욱 어필합니다. 우선 감정이 복잡하다는 문장으로 시작하는데, 이때 인용한 논문이 MER 데이터셋으로 많이 쓰이는 IEMOCAP 논문입니다. IEMOCAP 데이터셋의 경우, 실제로는 9감정으로 라벨링되어 있지만, 대부분의 경우 4감정 혹은 6감정으로만 데이터셋을 구성하여 평가하고 있습니다. 왜 이런가 하면, 각 감정의 데이터 샘플이 수가 너무 차이가 발생하기 때문입니다.
또한, 본 논문의 저자가 어필하는 점이 서로 다른 모달리티가 서로 다른 감정을 전달할 수 있다는 점입니다. 예를 들어서 비디오에서는 어떤 사람이 웃고 있는데, 오디오에서 같은 사람이 우울한 목소리로 말 했을 때 단일 모달리티만으로는 정확한 감정을 식별하기 힘들 것입니다. 이 때문에 논문의 저자는 multimodal 데이터셋을 구축한 것입니다.
open vocabulary learning 파트에서는 이미 open vocabulary learning을 하는 다른 task에 대해서 언급하며 시작합니다. object detection, segmentation, scene understanding과 같이 task에서 이미 OV 방식을 사용하고 있고, 감정 또한 한정된 label space가 아닌 OV 방식으로 감정을 식별해야 한다는 것을 어필합니다.

<3. Dataset Construction>

EMER의 데이터셋은 MER에서 많이 사용되는 MER2023의 데이터셋을 이용하여 구축하였습니다. annotation 과정에서 다면적인 clue에 대해서 annotation해야 했기 때문에 cost가 많이 발생하여서 MER2023 데이터셋에서 332개의 샘플을 선별하여서 annotation 하였습니다.

<3.1 Data Annotation>

본 논문의 저자는 annotation 과정에서 다음과 같은 몇 가지 기본적인 사실을 발견했다고 합니다.
동영상 자막은 일반적으로 짧고 구어적이며 감정 표현이 모호함
자막의 감정 표현이 모호한 경우, visual clue와 accoustic clue를 사용하면 감정을 더 명확하게 파악할 수 있음
이를 통해서 쉽게 감정을 인식할 수 있고 더 정확한 description을 생성할 수 잇음
그래서 주로 visual, acoustic clue에 annotation을 단 다음에 LLM을 사용하여서 감정 표현이 모호한 것을 제거합니다. Figure 2를 통해서 data annotation 과정을 확인할 수 있습니다.
Table 1은 annotation process를 진행하며 각 단계에서 사용한 prompt를 보여줍니다. 이와 관련한 디테일한 부분은 뒤에서 더 자세히 설명드리고자 합니다.
Figure 7을 통해서 각 단계의 결과물을 확인할 수 있습니다.

<3.1.1. Pre-labeling>

본 논문의 저자는 처음에 직접 visual, caoustic clue에 대해서 annotation 작업을 수행했다고 합니다. 그런데 직접 작업해서 얻은 description은 짧고 모든 clue를 포괄하지 못하는 단점이 있어 GPT-4V를 사용하여 초기 annotation 작업을 수행하였습니다.
GPT-4V는 비디오를 지원하지 않고 이미지만 지원하기 때문에 비디오를 샘플링한 뒤 visual clue를 추출하였습니다. 이 과정에서 아래와 같은 Table 1의 1번 prompt를 사용하였습니다.
프롬프트 내용을 잠시 살펴보면 얼굴 표현에 집중해서 visual clue를 추출하도록 유도하고 있고, 특이한 점으로는 character의 identity에 대해서는 무시해달라는 내용을 작성한 것을 볼 수 있습니다. 제 생각에는 드라마 같은 경우 특정 인물이 특정 성격 및 감정이 주로 등장하는 경향이 있는데 이러한 것에 편향되지 않기를 원해서 이러한 문구를 추가한 것이 아닌가 생각이 듭니다. 또 각 frame간의 temporal relationship을 고려하는 문장도 추가한 것을 볼 수 있습니다.
acoustic clue를 추출하기 위해서도 GPT-4V를 사용하였습니다. raw audio를 mel-spectrogram으로 변환하여 이미지처럼 사용하여 GPT-4V를 이용해 acoustic clue를 추출하고자 하였지만, GPT-4V가 mel-spectrogram에 대해서 적절한 응답을 생성하지 못해서 audio의 자막이 감정과 관련된 clue를 포함하고 있으니 이를 이용하여 아래와 같은 Table 1의 2번 prompt를 사용하여 acoustic clue를 추출하였습니다.
audio의 자막으로 acoustic clue를 추출하고자 한 것이기 때문에 텍스트에서 어떤 부분이 감정 상태를 나타내는지를 찾고 왜 그 부분이 감정 상태를 나타내는지에 대해서 설명해달라는 내용으로 구성된 것을 볼 수 있습니다.

<3.1.2. Two-round Checks>

GPT-4V가 만든 output에 대해서 교정하는 과정에서 몇 가지 오류가 있었습니다. visual clue의 경우, 없는 것을 있다고 하는 hallucinatory 반응이 있었고, accoustic clue의 경우 텍스트가 일반적으로 짧고 구어체여서 생성된 output이 부정확하거나 감정적으로 중요한 부분이 누락되는 경우가 있었습니다. 이 때문에 논문의 저자는 두 번의 수작업 검토를 통해서 반복된 표현을 제거하고 clue의 신뢰성을 높이고자 하였습니다.

<3.1.2. Disambiguation>

논문의 저자는 lexical clue(acoustic, visual clue처럼 text의 clue라고 이해하시면 됩니다)를 얻기 위해서, 영상의 자막을 이용하고자 했는데 앞에서 언급했던 것처럼 자막은 감정 표현이 모호한 문제인 것을 acoustic clue와 visual clue를 함께 주어 자막의 모호성을 해소하고자 하였습니다. GPT-3.5를 이용해서 만들었고 prompt는 아래와 같이 Table 1의 3번 prompt를 주었습니다.
acoustic clue, visual clue를 통해서 정확한 lexical clue를 생성할 수 있었고 이를 모두 결합하여 EMER(Multi)를 구축하였습니다.

<3.2 Annotation Analysis>

EMER(Multi)는 multi-modal emotion 관련 clue를 포함하기 때문에 논문의 저자는 visual clues, discrete emotion, valence scores(감정의 긍/부정 수준을 나타내는 수치), open-vocabulary emotion labels을 추출하고자 하였습니다. 이를 추출하는 과정에서 GPT-3.5를 이용하였고, Table 2의 prompt를 이용하였습니다.

<3.2.1. Visual Clue Analysis>

앞에서 pre-label visual clue를 통해서 비디오에서 전반적인 visual clue를 포함하는 초기 description을 생성했다면, 이번에는 이미 생성된 visual clue에서 특정 visual clue를 더 자세히 분석하고 추출하기 위해서 visual clue analysis를 수행합니다. 그래서 아래의 prompt를 보면 얼굴 표정, 제스처를 명확하게 언급하면서 이를 추출해달라고 말하는 것을 볼 수 있습니다. 결과적으로 각 sample에서 추출된 visual clue의 개수는 약 4.95개라고 합니다.

<3.2.2. Discrete Emotion Recognition>

논문의 저자는 EMER(Multi)로부터 discrete emotion을 추출할 수 있는지 확인하고자 하였습니다. 그래서 MER2023 데이터셋의 emotion label을 ground truth로 두고 아래와 같이 Table 2의 2번째 prompt를 통해서 추출한 emotion과 비교하였습니다.
prompt를 보면 MER2023 데이터셋의 emotion label을 gt로 두었기 때문에 동일하게 label space를 지정해서 emotion을 추출하도록 작성한 것을 확인할 수 있습니다. 실험 결과로 Top-1, Top-2 acc가 93.48, 96.89로 나온 것을 통해 EMER(Multi) 데이터셋에는 명확하게 descrete emotion을 인식할 수 있는 clue가 포함되어 있다고 말할 수 있습니다.

<3.2.3. Valence Estimation>

discrete emotion과 마찬가지로 논문의 저자는 EMER(Multi)로부터 valence (감정 극성)을 추출할 수 있는지 확인하고자 하였습니다. 동일하게 MER2023 데이터셋의 valence socre를 gt로 두고 아래와 같이 Table 2의 3번째 prompt를 통해 -5~5의 값을 가지는 valence를 추출하고자 하였습니다.
EMER(Multi) 기반의 valence 점수를 MER2023의 Valence 점수와 PPC(Pearson Correlaion Coefficient)를 통해서 비교하여 제대로 된 valence를 추출하는지 평가하고자 하였습니다. 그 전에, PPC는 두 변수 간의 선형 상관 관계를 측정하는 통계적 지표로, 두 변수 사이의 연관성을 평가합니다. -1~1 사이의 값을 가지며, 1에 가까울 수록 두 변수 간에 양의 선형 관계가 있음을, -1에 가까울 수록 음의 선형 관계가 있음을 나타냅니다. PPC를 통해서 평가한 결과, 0.88이 나왔는데 1과 가까운 수치로 EMER(Multi)를 통해서 valence를 제대로 추출할 수 있음을 확인할 수 있습니다.

<3.2.4. OV Emotion Recognition>

EMER의 메인이 되는 파트입니다. 모든 emotion label의 경우, 다음과 같이 Table 2의 4번째 prompt를 이용하여서 추출합니다.
추출한 결과로 301개의 감정 후보를 추출하였고, MER2023의 6개 label 보다 훨씬 많은 숫자 입니다. 각 샘플당 평균 3개의 emotion label이 존재한다고 합니다.

<4. Experimental Setup>

<4.1. Baselines>

감정 인식은 temporal information에 의존하기 때문에 최소한 video 또는 audio를 지원하는 MLLM을 선택합니다. 본 논문에서는 MLLM 모델을 정리하여서 이 중에서 선택하여서 baseline을 잡았는데요. 공유하면 좋을 것 같아 가져와봤습니다. 최근에 나온 MLLM인 OneLLM도 있는 거보니 요즘 어떤 MLLM이 있는지 파악하고자 할때 도움 받을 수 있을 것 같습니다.
보통 MLLM을 구축할때 다른 모달리티의 사전 학습된 모델들을 LLM과 align하는 것이 주된 아이디어 입니다. 본 논문도 이와 비슷하게 MLLM을 구축하였고, Instruction Fine-Tuning을 통해 MLLM이 instruction과 multimodal input을 이해할 수 있도록 하였습니다.
MLLM을 사용하여 EMER과 유사한 description을 생성하기 위해 아래와 같은 prompt(자막이 없는 prompt)를 사용하여 C라는 output을 생성합니다. C를 이용해 자막에 담겨져 있는 감정 표현을 명확하게 합니다. 본 논문에서는 공정한 비교를 위해 audio, video 및 audio-video LLM에 유사한 prompt를 이용하였습니다.

<4.2 Evaluation Metrics>

EMER의 주요 목적은 보다 풍부한 emotion label을 식별하는 것이기 때문에 평가 메트릭으로 예측된 label set과 annotation된 label set간의 겹친 비율(Overlap Rate)를 사용하였습니다. 추가 메트릭으로 NLP에서 많이 사용하는 BLEU1,BLEU4,METEOR,ROUGEl\text{BLEU}_1,\text{BLEU}_4, \text{METEOR}, \text{ROUGE}_l 를 사용하여 텍스트 일치도를 평가하였습니다.

<4.2.1. Emotion Recognition>

label space를 고정한 것이 아니기 때문에 MLLM은 비슷한 의미를 가지지만 다른 label인 happy와 joy와 같은 동의어를 생성할 것입니다. 이러한 동의어로 인해서 예측된 label set과 annotation된 label set간의 overlap rate에 영향을 미칠 수 있습니다. 이 때문에 논문의 저자는 동의어의 영향을 줄이기 위해서 GPT-3.5를 사용하여 모든 label을 그룹으로 나누어 계산하기 전에 유사한 의미의 label을 하나의 그룹으로 묶습니다. 아래와 같으 prompt를 이용하여서 그룹을 만들었습니다.
Please assume the role of an expert in the field of emotions. We provide a set of emotions. Please group the emotions, with each group containing emotions with the same meaning. Directly output the results. The output format should be a list containing multiple lists.
label을 그룹화 하는 과정에 대해서 조금 더 디테일하게 말씀드리고자 합니다. 먼저 그룹화를 수행하는 함수 G()G()를 정의합니다. label set은 아래와 같이 정의할 수 있습니다.
{yi}i=1M{\{y_i\}}^M_{i=1}: 주어진(annotated) label set
{y^i}i=1N{\{\hat{y}_i\}}^N_{i=1}: 예측된 label set
M, N: number of labels
동의어의 영향을 줄이기 위해서, 먼저 각 label을 해당하는 group ID: Y={G(x)x{yi}i=1M}\mathcal{Y}=\{G(x)|x\in {\{y_i\}}^M_{i=1}\}Y^={G(x)x{y^i}i=1N}\mathcal{\hat{Y}}=\{G(x)|x\in {\{\hat{y}_i\}}^N_{i=1}\}로 mapping 합니다. 그런 다음에 다음과 같은 메트릭을 따릅니다.
위의 두 메트릭은 기존의 사용되는 precision과 recall과 비슷한데 차이점은 set level로 구한다는 것이 다릅니다. Accuracys\text{Accuracy}_s는 예측한 label 중 올바른 label 비율을 나타내는데 정확히 예측한 label이 얼마나 많은지 평가합니다. Recalls\text{Recall}_s는 전체 정답 label 중에서 예측한 label이 얼마나 많이 포함되었는지를 나타내는데, 실제 label을 얼마나 잘 포착했는지를 평가합니다. 최종 순위는 Accuracys\text{Accuracy}_sRecalls\text{Recall}_s의 평균으로 매깁니다.

<4.2.2. Word-level Matching>

위에서 사용한 감정 기반 평가 지표가 OpenAI API 호출 비용이 많이 드는 문제를 해결하기 위해 NLP에 흔히 쓰이는 BLEU1,BLEU4,METEOR,ROUGEl\text{BLEU}_1,\text{BLEU}_4, \text{METEOR}, \text{ROUGE}_l를 함께 계산하여 사용하였습니다. 각 메트릭에 대해서 생소하신 분들위해 간단히 설명드리자면 아래와 같습니다.
BLEU (Bilingual Evaluation Understudy): • 문장 길이에 따른 n-grams의 비교를 통해 번역 품질을 평가하는 지표
METEOR (Metric for Evaluation of Translation with Explicit ORdering): 단어 매칭 기반으로, 의미와 순서를 고려하여 번역을 평가
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 요약이나 번역의 질을 측정하기 위해 사용되며, 특히 ROUGEl\text{ROUGE}_l는 sequence 길이 기반의 평가 지표.

<5. Results and Discussion>

<5.1. Language Influence>

EMER 초기 데이터셋은 중국어로 구성되어 있는데 이를 GPT-3.5를 이용하여 변역을 통해 영어로 변환하였습니다. 그런데 영어로 변환되는 과정에서 데이터셋이 의도한 바로 작동하지 못할 수도 있으니, 본 논문의 저자는 영어와 중국어 label 간의 유사성을 비교하여 제대로 데이터셋이 구축이 되었는지를 확인하고자 하였습니다. 이러한 과정은 Figure 3를 통해서 확인할 수 있습니다. 차근차근 설명하도록 하겠습니다. 먼저, 영어 데이터셋에서 emotion label YEEY_{EE}을, 중국어 데이터셋에서 emotion label YCCY_{CC}를 추출합니다. 이 label들을 다른 언어로 번역하여 YEC,YCEY_{EC}, Y_{CE}를 생성합니다. label간 유사성을 측정하기 위해서 overlap rate 메트릭을 사용합니다. {pi1}i=1N1{\{p_i^1\}}_{i=1}^{N_1}, {pi2}i=1N2{\{p_i^2\}}_{i=1}^{N_2} 이렇게 두개의 label set이 주어지면 동의어 매핑 함수 G()G()를 적용하여 label group ID: P1={G(x)x{pi1}i=1N1}\mathcal{P}^1 = \{G(x)|x\in {\{p_i^1\}}_{i=1}^{N_1} \}P1={G(x)x{pi1}i=2N2}\mathcal{P}^1 = \{G(x)|x\in {\{p_i^1\}}_{i=2}^{N_2} \}로 맵핑합니다. 그 후에 아래의 메트릭에 따라 계산합니다.
ovelap rate가 높다는 것은 label이 유사하다는 것을 의미합니다.
논문의 저자는 Figure 3을 통해서 조금 흥미로운 점을 발견하였다고 합니다.
1.
번역으로 인한 overlap rate 감소
예를 들어서 YEE\text{Y}_{EE}에서 YEC\text{Y}_{EC}로 변경하면 overlap rate가 0.15 감소합니다. 주된 이유는 cross-language setting에서 label grouping의 난이도가 증가했기 때문입니다. 경우에 따라 grouping process가 실제 label 유사성보다는 language type에 기반할 수 있다는 것을 발견하였다고 합니다. 왜 이런 현상이 발생하는지에 대해서는 논문의 저자는 언급하지 않았지만, 개인적인 의견으로는 같은 언어 내에서 유사한 표현들이 서로 다른 언어로 번역되었을 때 다른 그룹으로 인식될 수 있기 때문이라 생각이 듭니다.
2.
다른 언어로 된 description에서 추출된 label은 약간의 차이가 있음
예를 들어, 동일한 언어 설정에서 YEE\text{Y}_{EE}에서 YCE\text{Y}_{CE}로 변환하면 overlap rate가 0.18 감소합니다. 이 이유로 각 언어의 감정 정의가 다를 수 있기 때문이라고 논문의 저자는 말합니다. 그래서 더 정확한 label을 얻기 위해서 두 언어에서 추출된 label을 병합하고 수동으로 확인하고자 하였고, 이렇게 얻은 label을 Ygt\text{Y}_{gt}라고 합니다.
3.
다른 언어로 된 description에서 label을 추출하고, cross-language setup에서 overlap rate를 계산하면 매우 감소함.
예를 들어 YCC\text{Y}_{CC}에서 YCE\text{Y}_{CE}(또는 YEC\text{Y}_{EC}에서 YCE\text{Y}_{CE}로) 변경하면 0.22(또는 0.27)로 감소하는 것을 확인할 수 있습니다.

<5.1. Main Results>

Table 3을 통해서 각 다른 방법론에서 emotion recognition 결과를 확인해볼 수 있습니다. 먼저 두가지 heuristic baseline인 ‘Empty’와 ‘Random’에 대해서 설명드리겠습니다. ‘Empty’의 경우, 각 sample을 “unable to judge the emotional state”로 예측합니다. ‘Random’의 경우, MER2023의 후보 집합(worried, happy, neutral, angry, surprised, sad)에서 무작위로 label을 선택하고 “through the video, we can judge the emotional state is {emotion}”라는 description을 생성하여 이를 가지고 성능을 측정하였습니다. 이 두 baseline은 성능 하한선을 나타냅니다.
Table을 보면 이 두 baseline 이후로 다른 방법론의 성능들이 나와있는데, 앞에서 다른 언어로된 description에서 추출한 label에는 약간의 차이가 있다는 것을 발견했기 때문에 논문의 저자는 중국어와 영어 성능 모두 리포팅하였습니다. 영어 버전에서는, YEE\text{Y}_{EE}Ygt\text{Y}_{gt}의 영어 버전을 기반으로 성능을 측정하였고, 중국어 버전에서는 YCE\text{Y}_{CE}Ygt\text{Y}_{gt}의 영어 버전 기반으로 성능을 측정하였습니다.
Table3의 실험 결과를 보면 MLLM이 heuristic baseline보다 성능이 뛰어남을 보여주며, MLLM이 emotion recognition을 어느정도 해결할 수 있음을 나타냅니다. 하지만 MLLM의 예측과 Ygt\text{Y}_{gt}사이에는 여전히 상당한 성능 격차가 존재한다는 것을 볼 수 있고, 이는 기존 MLLM의 한계를 보여주기도 합니다.

<5.2. Impact of Modality>

EMER(Multi)는 visual, acoustic clue를 사용하여 자막의 모호성을 해소하고 lexical clue를 생성합니다. 논문의 저자는 모달리티의 영향을 연구하기 위해서 Figure 4에 따라 EMER(Audio), EMER(Text), EMER(Video)를 추가로 생성하였습니다. 각 데이터셋을 어떻게 구축한 지에 대해서 간단히 설명하면, EMER(Audio)의 경우, 기존의 만들어둔 accoustic clue만 사용하였고, EMER(Text)는 자막에서 emotional state를 추론하고 Table 1의 두번쨰 prompt를 이용하여 lexical clue를 생성하였습니다. EMER(Video)의 경우도 visual clue만을 사용하였습니다.
Table 3의 하단을 잘라서 가져와봤습니다. EMER(Multi)가 가장 높은 성능을 달성한 것을 볼 수 있습니다. 감정이 다양한 모달리티를 통해서 전달이 되고, EMER(Multi)는 다양한 모달리티의 clue를 결합해서 사용했기 때문에 당연한 결과라고 생각됩니다. 반면에 특이한 점은 EMER(Text)가 4가지 버전 중에서 가장 낮은 성능을 보였습니다. 이는 앞에서 언급했던 자막의 모호성 때문입니다. 다른 모달리티의 경우 clue를 통합함으로써 자막의 감정을 명확하게 가져간 것에 비해서 EMER(Text)는 자막을 거의 그대로 활용했기 때문에 이러한 결과가 나온 것이라 볼 수 있습니다.

<5.2. Impact of Subtitles>

자막의 영향력을 보기 위해서 논문의 저자는 여러 실험 셋팅을 설정했습니다. 먼저 “S0”는 자막을 사용하지 않고 바로 description을 생성합니다. “S1”은 자막을 이용하여 description을 생성합니다. 앞에서 이미 보여드렸던 Table 6의 prompt를 사용하였다고 합니다. “S2”는 S0을 이용하여 clue를 추출한뒤, 이를 이용하여 자막의 감정을 명확하게 가져갔습니다. S2를 기존의 EMER(Multi)라고 생각하시면 되겠습니다.
Figure 5를 통해 각 셋팅의 emotion recognition 성능을 확인할 수 있습니다. 더 디테일하게 보고 싶다면 Table 7을 보시면 되겠습니다. 성능을 살펴보면 S1, S2가 S0에 비해서 전반적으로 성능이 높은 것을 보여주는데, 이는 감정 인식에서 자막의 사용이 중요하다는 것을 보여주는 것과 같습니다. 그리고 전반적으로 S1보다 S2가 더 성능이 높은 것을 확인할 수 있는데 논문의 저자는 이러한 이유가 S1의 경우, 자막을 포함하여 prompt를 작성하였는데 이렇게 되면 promp가 복잡하여 현재 MLLM으로는 prompt를 이해하는데 어려울 수 있다고 합니다. 반면에 S2의 경우, 자막을 분리하여 clue를 추출하고 난 후 이를 이용해서 자막을 명확히 하는 것이기 때문에 문장 복잡도를 낮춰 더 나은 성능을 얻을 수 있습니다. 이 때문에 본 논문에서는 S2 방법을 default로 사용합니다.

<5.3. One-hot vs OV Labels>

논문의 저자는 MER2023 기반의 one-hot lavel과 OV label간의 관계를 확인하고자 Table 4와 같이 성능을 측정해봤습니다. Accuracy의 경우, 성능이 높은 것으로 보아 one-hot label이 감정을 정확하게 식별하고 있다고 말할 수 있습니다. 그에 반해 Recall이 굉장히 낮은 것을 볼 있는데, one-hot label의 recall이 낮은 이유는 one-hot label이 감정의 전체 스펙트럼을 포괄하지 못한다는 것을 나타내며, 제한된 label space와 label 수 때문에 발생합니다.

<5.4. Metric Correlation Analysis>

Table 3는 emotion recognition를 평가한 것이라면, 두 개의 description이 얼마나 비슷한가를 평가하기 위해서 BLEU와 같은 지표의 점수를 Figure 6를 확인할 수 있습니다.
자, 길었습니다. EMER이라는 task가 MLLM을 이용해서 어떻게 데이터셋을 구축하였고, OV MER을 할 수 있는지 디테일하게 본 것 같습니다. 이를 기반으로 나온 다른 논문들도 이제는 읽어볼 수 있을 것 같습니다. 정말 LLM을 사용하지 않는 task는 더 이상 없는것 같은 느낌도 드는 요즘입니다. 그럼 리뷰 마무리하겠습니다. 읽어주셔서 감사합니다.