How does AI interpret "Grandpa's grumpy face"? Testing VLM's facial expression recognition with elderly Asians.

2025-10-14

更新日

2025-10-21

Haruka Asanuma

I'm Asanuma, an intern at Quixotiks.

In our previous blog post, we investigated how well Gemini and GPT, both Large Vision-Language Models (VLMs), could interpret facial expressions in images. The results showed that,the general sentiment of expressions, such as positive or negative, could be captured.However, the previous dataset primarily consisted of images of Caucasians and younger individuals. As is often the case with datasets used in AI development, there was a bias. Therefore, this time, we decided to focus on what could be considered "outliers" in the dataset:Asians (Japanese) and the elderly.We decided to additionally investigate how accurately the latest VLMs can recognize their facial expressions.

Experiment Overview

  • Models Used:
    • Gemini-2.5-flash
    • Gemini-2.5-pro
    • gpt-5-2025-08-07
  • Images Used:
    • We borrowed two images of elderly people from the free stock image site "Pakutaso".

Experiment 1: Facial Expression of a Man Reading a Newspaper

This is an image of a man intently reading a newspaper. Each model described his expression as follows:

gemini-2.5-flash

写真の男性は、真剣で思索的な表情をしており、読んでいる内容に対して懸念や深い考えを抱いているように見える。主な特徴は以下の通りである:眉: ひそめられており、額にシワが寄っている。これは集中や心配を示している。

目: 眼鏡に縁取られた目は下を向いており、手に持った書類に強く焦点を合わせている。

口: 最も目立つ特徴であり、口角がはっきりと下がっており、しかめ面または苦い表情を作っている。唇はやや固く閉じられている。

あご: わずかに持ち上がるように押し上げられており、そのことが口角の下がった表情をさらに強調し、全体として軽い苦悩・集中・熟考の印象を与えている。

全体として、彼は深く考え込む必要のある情報を読み取っており、そこには不快感・困難さ・心配といった感情がうかがえる。
gemini-2.5-pro

提供された画像に基づくと、その男性は強い集中と、不快感または懸念が入り混じった表情をしている。この表情を形作っている主な特徴は以下の通りである:

額と眉: 額にはシワが寄り、眉は少しひそめられており、強い集中や心配を示している。

目: 視線は下に向けられており、おそらく読んでいる新聞に集中している。

口: 最も印象的な部分であり、唇はすぼめられ、口角が大きく下がっている。はっきりとしたしかめ面を作っており、読んでいる内容に不快感・動揺・失望を感じていることを示唆している。

全体として、彼は読んでいる情報に対して真剣に考え込むか、否定的な反応を示しているように見える。
gpt-5-2025-08-07

彼は眼鏡の奥で目を細め、ほとんど閉じかけている。眉はわずかにひそめられ、唇は軽く下向きに引き結ばれている。これは集中しているか、あるいは軽い困惑を表す表情である。

Discussion

Interestingly,all models estimated negative-leaning emotions such as "perplexity," "worry," and "discomfort".

However, from my perspective as a Japanese person, it's quite natural for elderly individuals to make such a "stern face" when concentrating on a newspaper; it doesn't necessarily indicate strong negative emotions.

This discrepancy in interpretation with the AI might not only be due to cultural context differences, but alsoa bias in the age distribution of the training dataset. Perhaps the AI learned facial patterns from abundant data of younger people (e.g., frowning = dissatisfaction or perplexity) and applied them to images of the elderly. In other words,there is insufficient data to capture the nuances of facial expressions unique to the elderly, which might have led to these estimations based on the facial expressions of younger individuals.

Experiment 2: The expression of a woman lost in thought

Next is an image of a woman resting her chin on her hand, seemingly lost in thought.

gemini-2.5-flash

その女性の表情は、憂鬱・心配・深い思索の感情を伝えている。主な要素は以下の通りである:

目: 視線は下向きで、やや右下を見ており、直接的な視線を避けている。これは内省的な気持ち、悲しみ、あるいは外界への関心の欠如を示唆する。

口: 口は閉じられ、口角がわずかに下がっている。これは満足や怒りではなく、沈んだ・不安な気持ちを強調している。

手の位置: 右手が頬やあごにしっかりと当てられており、この仕草は次のような意味を持つことが多い:

深い思索や沈思: 彼女は考え事に没頭しているように見える。

悲しみや心配: 頭を支えるような手の動きは、疲労や感情的負担を示すことがある。

身体的な不快感や痛み: この姿勢は歯痛、あごの痛み、頭痛などのときにもよく見られる。

全体として、彼女の表情は落ち着いていて内省的であり、内面での苦悩や深い思索を経験していることをうかがわせる。
gemini-2.5-pro

提供された画像に基づくと、その高齢の女性は悲しみ・心配・思索を感じさせる表情をしている。この表情を形作っている具体的な特徴は以下の通りである:

目: 視線は下向きで、やや外を向いており、これは悲しみ、恥じらい、または深い思考を示すことが多い。

口: 唇は閉じられ、口角がわずかに下がっており、典型的な不満や落胆のサインとなっている。

眉: 眉はほぼ中立からやや下がった位置にあり、心配や不安の印象を与えている。

しぐさ: 頬を手のひらに預けており、これは沈思、悩み、あるいは疲労を感じている人によく見られる姿勢である。

全体として、彼女の表情は憂鬱と心配を帯びており、何かに深く心を痛めているか、沈んだ思いに沈んでいるように見える。
gpt-5-2025-08-07

彼女は物思いにふけり、少し悲しげまたは心配そうに見える。わずかに眉をひそめ、口元には軽いしかめ面を浮かべ、視線を下に向けながら、頬に手を添えている。

Discussion

For this image, all three models provided estimations very close to my own interpretation, such as "contemplation," "sadness," and "worry." The gesture of resting one's chin on a hand while lost in thought is not only culturally universal but alsoshows relatively little age-related difference, being commonly observed across generations. Therefore, it might have been easier for the AI to learn this pattern and make an accurate judgment.

Summary

This verification has shed light on the current capabilities and challenges of VLM's facial recognition.

While the expression of a woman lost in thought was recognized with high accuracy, the expression of a man reading a newspaper was interpreted as negative, diverging from human perception. This difference is likely due to the "universality" of certain expressions and the "bias in AI training data."

While the gesture of resting one's chin on a hand is universal across ages, the "stern face" made during concentration carries nuances specific to the elderly. The AI likely judged the expressions of the elderly, for which it has less data, based on the patterns of younger individuals, for whom it has abundant data, leading to the discrepancy in interpretation.

This indicates that for AI to truly understand human expressions, in addition to high-level contextual understanding abilities like situation and culture, the foundationalimportance of diverse and unbiased datasetswas reaffirmed. We will continue to pay close attention to the future evolution of VLM.