How do VLMs describe human facial expressions? A comparative experiment with Gemini and GPT-4o.

2025-10-03

Haruka Asanuma

Hello, I'm Asanuma, an intern at Quixotiks.

This time, we report the experimental results of having the latest VLM (Vision-Language Model) freely describe the expressions of people in images and verifying its capabilities.

In the previous blog post, we reported that it is difficult for models to accurately classify 'in the wild' facial expression datasets into 6-7 categories. Therefore, this time, by having the model describe human expressions, we aimed to clarify whether it "cannot recognize faces at all" or "can recognize faces but cannot classify the subtle nuances of expressions."

Models

For the experiment, we used Gemini-2.5-flash, Gemini-2.5-pro, and gpt-4o-2024-11-20.

These models are representative commercial VLMs that boast high performance in various image recognition benchmarks, and we adopted the latest models available at the time of the experiment.

Dataset: CAER-S

For the dataset, we used CAER-S, which was also used in the previous article. CAER-S consists of still images extracted from video data filmed in everyday environments, making it suitable for measuring AI performance in real-world scenarios.

(Note) CAER-S is published on this blog because it has a commercial use license.

Experiment

We input the following prompt in English and translated the resulting English output into Japanese for reporting. Since the CAER-S dataset primarily consists of Western content, we believed that instructing the models in English would maximize their performance compared to using Japanese.

Prompt

###💡

Please describe the facial expression of the person in the photo.

###

Results

Based on the results of the previous experiment, let's examine the results by dividing them into 'expressions that are easy to classify (Happy, Sad)', 'expressions that are often misclassified (Anger, Disgust, Surprise)', and 'expressions that cannot be classified at all (Fear)'.

Expressions that are easy to classify

In the previous experiment, we found that Happy and Sad were frequently classified successfully. First, let's look at the descriptions of Happy and Sad images.

Happy

All models correctly recognize the positive emotion of "looking happy" from the woman in the photo.

What's noteworthy is that Gemini recognizes this image as a scene from the American drama 'Friends'. Gemini Flash refers to the character by the proper noun "Monica," indicating that it is linking the image with relevant knowledge in its response.

gemini-2.5-flash

写真に写っている人物モニカの顔には、大きくて心からの笑顔が浮かんでいる。口は開いており、上の歯が見えている。頬は持ち上がっていて、目の周りには少しシワが寄っている。彼女の目は明るく生き生きとしており、幸せ・おかしさ・満足感を感じていることを示している。おそらくカメラの外にある何かに対して、前向きな反応をしているのだろう。
gemini-2.5-pro

元の画像と提供された切り抜きに基づくと、その女性は楽しげでおかしそうな表情をしている。主なポイントは以下の通りである。

口: 唇は大きく開いており、心からの笑顔で上の歯が見えている。口角は大きく上がっている。

目: 目は明るく、端に少しシワが寄っており、これはデュシェンヌ・スマイル(本物の笑顔)の特徴である。視線はやや横に向けられていて、誰かや何かに対して楽しげに反応しているように見える。

全体: 笑顔の口と輝く目が組み合わさり、幸福感・喜び・温かさを伝えている。ちょうど楽しく心地よい瞬間の最中にいるように見える。
gpt-4o-2024-11-20

その人物は陽気で楽しそうな表情をしているように見える。口を少し開けて笑っており、それは楽しげに笑っているか、心地よく話していることを示唆している。目はやや細められており、喜びや楽しさを反映している。

Sad

Even humans would judge this image to be a typical expression of "sadness." All models detect negative emotions, but while both Gemini models express sadness with direct terms like "intense distress," "grief," and "deep sorrow," GPT-4o offers a slightly different interpretation, using "frustration and anguish."

gemini-2.5-flash

前景にいる茶色の髪の人物は、強い感情的苦痛や悲嘆の表情を浮かべている。主な特徴は以下の通りである:

目: ぎゅっと閉じられており、深い感情や涙をこらえようとしていることを示している。

口: 大きく開かれており、悲しみによる泣き声・嗚咽・あるいは叫びに一致する形をしている。

眉: ひそめられていて、痛みや悲しみの表情を強調している。

全体: この表情は深い悲しみや絶望、あるいは極度の感情的な吐露の瞬間を伝えている。
gemini-2.5-pro

提供された画像に基づくと、前景にいる女性は強い苦悩と悲嘆の表情をしている。彼女の顔の特徴を分解すると次の通りである:

目: ぎゅっと強く閉じられている。

眉: ひそめられ、内側に寄っており、悲しみや痛みを示す典型的なサインである。

口: 唇を開いており、すすり泣きや叫び声、嗚咽の最中であるかのように見える。

全体: 顔全体がゆがみ、深い悲しみ、悲嘆、感情的な混乱を伝えている。彼女は抑えきれずに泣き続けているように見える。
gpt-4o-2024-11-20

前景にいる人物は感情的な表情をしており、口を開け、眉を少しひそめていることから、苛立ちや苦悩を表している可能性がある。

Expressions Prone to Misclassification

Next, in the previous classification experiment, models often confused Anger, Disgust, Surprise .

Anger

This image, while not necessarily typical, is one that many people would likely identify as an expression of "anger."

All models do not definitively identify "anger," instead detecting negative but slightly different emotions such as "doubt," "perplexity," or "skepticism." While facial recognition is successful, it highlights the difficulty in classifying it into a specific category.

gemini-2.5-flash

その男性の表情は、会話の最中に発言しているか考え込んでいる様子を示している。口は少し開いており、話している、または話し始めようとしているように見える。眉はやや上がっており、特に左の眉が少し上がっているため、表情にはいくらか疑問を含んだ・思索的な、あるいはやや戸惑った雰囲気が加わっている。視線はカメラから少し外れており、誰かと関わっていることを示している。全体として、彼は何かを説明している最中か、あるいは発言に対して微妙なニュアンスを込めて反応しているように見える。
gemini-2.5-pro

元の画像と提供された切り抜きに基づくと、(テレビ番組 Friends に登場するマシュー・ペリー演じる)チャンドラー・ビングは、困惑しつつ苛立ったような表情をしている。この表情を形作っている特徴を分解すると以下の通りである:

眉: 上がりつつ少し寄せられており、混乱、不信、あるいはわずかな苛立ちを示している。

目: 大きく見開かれ、焦点が合っていて、強く主張しようとしているか、聞いていること・説明していることに対して信じられないという反応を示している。

口: 唇は少し開き、わずかに下向きに曲がっており、信じられないという口調で話している最中、あるいは皮肉めいた発言をしようとしているように見える。

全体: この表情に加えて、両手を広げて身振りしていることから、彼は自分が馬鹿げていると思うことを説明しているか、状況に対して困惑しつつ、彼特有の皮肉を込めて反応していることが強く伝わってくる。
gpt-4o-2024-11-20

その人物は困惑または懐疑的な表情をしているように見える。眉は少しひそめられており、口はわずかに開いていて、不信や驚きをもって反応していることを示唆している。

Disgust

The woman in this photo clearly appears to be feeling unpleasant. It's an image that even a human would likely classify as 'disgust.'

Gemini captures related negative emotions such as 'irritation' and 'skepticism.' On the other hand, GPT offers an overall positive interpretation, such as 'slight amusement' or 'casual interest.'

In this example, Gemini appears to have captured the nuances of the expression more accurately.

gemini-2.5-flash

写真に写っている人物、モニカ・ゲラー(コートニー・コックス演)は、苛立ち、不信、そして少しの疲れた懐疑心や皮肉めいたおかしさを混ぜた表情を浮かべている。内訳は以下の通りである:

目: 目は開いており、やや上方と右に向けられている。まるで画面外の何かを「うんざり」「馬鹿げている」と感じて反応しているか、「信じられる?」と心の中で思っているかのようである。

眉: 特に左側が少し上がっていて、疑問や不信を感じているような印象を与えている。

口: 口はわずかに開いており、口角にはかすかな、ほとんど嘲笑的な、あるいは「はあ、ほんとに?」とでも言いたげな表情がにじんでいる。完全な笑顔ではないが、皮肉やうんざりした反応を示す特有の形になっている。

全体の印象: 腕を組み、ややもたれかかるといったリラックスしながらも閉じ気味のボディランゲージと相まって、この表情は「うんざりする」「ばかばかしい」「もはや信じがたい」といった状況に耐えている、あるいは反応していることを強く示している。
gemini-2.5-pro

提供された画像に基づくと、その女性は苛立ち・うんざり感・懐疑心が入り混じった表情をしている。特徴的な視覚的サインは以下の通りである:

目: 半分閉じられ、上や横を見ており、典型的な「目を転がす」仕草で、聞いていることに感心していない、あるいは軽視していることを示している。

口: 唇は少しすぼめられ、わずかに開いており、皮肉めいたコメントをこらえているか、不信のため息をついているように見える。

頭の傾き: 頭をソファに後ろにもたせかけており、他の特徴と組み合わせると「もううんざり」という印象を強めている。さらに、腕を強く組んだボディランゲージが、この不満や反発の表情を一層裏付けている。全体として、彼女は状況や発言を「馬鹿げている」と感じ、それを隠さず表に出しているように見える。
gpt-4o-2024-11-20

その人物はリラックスした姿勢でソファにもたれかかっているように見える。顔の表情は、軽い楽しさ・気軽な関心、あるいは遊び心のある皮肉を示しており、口元のかすかな笑みや上向きの視線からそれが感じられる。全体として、雰囲気は気楽でくつろいでいる。

Surprise

Reading a 'surprise' expression from the person in this photo seems quite difficult even for humans.

None of the models identified 'surprise,' instead estimating negative expressions such as 'contemplation' or 'skepticism.' Given the context that the image was taken in a high-end restaurant, it might not necessarily be a negative surprise, highlighting the importance of contextual understanding.

gemini-2.5-flash

写真に写っている人物、ジョーイ・トリビアーニは、思案とわずかな心配や不確かさが入り混じった表情をしている。内訳は以下の通りである:

目: 視線はカメラから少し外れ、左側を見ている。大きく見開かれてはいないが、やや集中しているように、あるいは細められているように見える。

眉: 眉は中央で少し寄っており、特に内側の角が目立つ。これは考え込み、心配、あるいは困惑を示すことが多い。

口: 唇は閉じられ、ニュートラルからわずかに下がり気味で、笑顔や明るさは見られない。

全体: 明確に幸せそうでも悲しそうでもなく、むしろ何かを深く考え込んでいるようで、少し不安や迷いを感じているように見える。
gemini-2.5-pro

提供された画像に基づくと、その男性は思索的でやや懐疑的な表情をしている。この表情を形作っている要素は以下の通りである:

目: 視線は横に向けられており、画面外の誰かや何かを見たり聞いたりしている様子を示している。

眉: わずかにひそめられており、集中・心配・軽い疑念を表している。

口: 唇は固く閉じられ、ニュートラルからわずかに下向きのラインを描いている。これは思慮深さや、言いたいことを抑えているような印象を与える。

全体: 彼の表情は、情報を慎重に処理しつつ、どこか疑わしさや物憂げな感情を帯びているように見える。
gpt-4o-2024-11-20

写真に写っている人物は、やや中立的または少し居心地の悪そうな表情をしている。唇はわずかにすぼめられており、目にも強い感情は表れていない。これは、その瞬間に気まずさ、不確かさ、あるいは思案を感じていることを示唆している。

An unclassifiable expression

Finally, let's look at 'Fear,' an emotion that was completely unclassifiable in the previous experiment.

Fear

Reading 'fear' from this man's expression is very difficult even for humans.

In fact, while all models identified negative emotions such as 'bewilderment' or 'anxiety,' none explicitly mentioned 'fear.' This outcome suggests that a single still image critically lacks the contextual information needed to accurately interpret expressions.

gemini-2.5-flash

画像の男性(ロス・ゲラー)は、思索的でやや困惑した表情をしている。内訳は以下の通りである:

眉: 眉はわずかに上がり、中央で寄せられており、額に小さなシワができている。これは考え込み、心配、あるいは混乱を示すことが多い。

目: 視線は上方、そしてやや左(見る側からすると右)に向けられており、何かを考えている、答えを探している、または画面外の出来事に反応しているように見える。目は大きく見開かれてもいなければ細められてもいない。

口: 唇は閉じられ、わずかに固く結ばれていて、口角がほんの少し下がっている。これは軽い熟考、わずかな失望、あるいは「考え中の顔」を示しており、リラックスや幸福感は見られない。

全体: 眉、視線、口の組み合わせから、彼は何かを深く考え込んでおり、難しい選択を検討している、あるいは驚きや困惑する状況にさりげなく反応していると考えられる(特にカードを手にしていることから、ゲームの最中である可能性が高い)。
gemini-2.5-pro

画像に基づくと、その男性は哀願するような、やや悲しげな表情をしている。この表情を形作っている特徴は以下の通りである:

目: 大きく見開かれ、やや上方を見ており、典型的な「子犬のような目」の印象を与えている。

眉: 特に中央部分が持ち上がっていて、不安や問いかけるような感情を示している。

口: わずかに開いており、口角が少し下がっていて、悲しみや失望を感じさせる。

全体: この表情は弱さやもろさを伝えており、まるで優しく誰かを説得しようとしているか、好意的な返答を期待しているかのように見える。これはしばしば『フレンズ』のキャラクター、ロス・ゲラー(デヴィッド・シュワイマー演)に結びつけられる表情である。
gpt-4o-2024-11-20

その人物は思案している、あるいはやや不安げな表情をしているように見える。眉はわずかに上がっており、唇には微かな緊張が感じられ、集中と不確かさが入り混じった印象を与えている。

Summary

This experiment revealed the following:

  1. Facial expression recognition in real-world environments is extremely challenging. A closer look at the dataset revealed that it contained many images, especially for 'Fear' and 'Surprise,' that even humans would find difficult to categorize consistently. This is likely one reason why the model's accuracy struggled in the previous classification task.
  2. Gemini generates more detailed and analytical descriptions. Overall, Gemini tended to generate more detailed descriptions than GPT-4o. Notably, it meticulously reported the movements of facial features, such as eyebrow angle, eye openness, and the shape of the mouth corners, as the basis for its expression judgments.
  3. Does Gemini have the edge in overall facial expression interpretation? As seen in the 'Disgust' example, there were instances where it more accurately captured the nuances of emotion. Considering this alongside its specific descriptions based on facial features, it suggests that Gemini may be a step ahead in overall facial expression recognition capabilities.
  4. No significant difference observed between Gemini Flash and Pro. Within the scope of this experiment, no significant performance difference was observed between Gemini Pro and the lighter Gemini Flash. This is an interesting point when considering cost-efficiency. Furthermore, Gemini Flash's response speed was approximately 1.3 to 1.5 times faster than Gemini Pro's. From this, it seemed that Gemini Flash would be a better choice for facial expression recognition tasks.

It was found that while the latest VLMs can grasp the general direction of expressions, such as positive or negative, they have not yet fully captured the subtle nuances of emotions. Distinguishing whether this challenge stems from the limited contextual information provided by a single still image or from the fundamental capabilities of the models themselves will be a crucial point for future investigation.