AIは"おじいちゃんの渋い顔"をどう解釈する?VLMの表情認識をアジア人高齢者で検証
- Haruka Asanuma
- 10月14日
- 読了時間: 6分
こんにちは、Quixotiksインターンの浅沼です。
前回のブログでは、VLM(大規模視覚言語モデル)であるGeminiとGPTが、画像内の人物の表情をどの程度読み取れるかについて検証しました。その結果、ポジティブかネガティブかといった、表情の大まかな方向性は捉えられることが分かりました。 ただ、前回のデータセットは白人や若年層の画像が中心でした。AI開発で使われるデータセットの多くがそうであるように、そこには偏りが存在します。 そこで今回は、ある意味でデータセットの「外れ値」とも言えるアジア人(日本人)・高齢者の表情認識について、最新のVLMがどのような精度を示すのか追加で検証してみることにしました。
実験の概要
使用モデル:
Gemini-2.5-flash
Gemini-2.5-pro
gpt-5-2025-08-07
使用画像:
フリー素材サイト「ぱくたそ」様より、高齢者の画像を2枚お借りしました。
実験1:新聞を読む男性の表情
新聞を真剣に読んでいる男性の画像です。各モデルは、この表情を以下のように記述しました。

考察
興味深いことに、全てのモデルが「困惑」「心配」「不快」といったネガティブ寄りの感情を推定しました。
しかし、日本人である私の感覚からすると、新聞に集中するときの高齢者は、ごく自然にこのような「渋い顔」になるもので、必ずしも強いネガティブな感情の表れとは限りません。
このAIとの解釈のズレは、単なる文化的なコンテキストの違いだけでなく、学習データセットの年齢層の偏りに起因するのではないか、と考えられます。AIは、データが豊富な若者の表情パターン(眉をひそめる=不満や困惑)を学習し、それを高齢者の画像にも適用してしまったのではないでしょうか。つまり、高齢者特有の表情のニュアンスを汲み取るためのデータが不足しているため、若者の表情を基準に判断した結果、このような推定になったのではないでしょうか。
実験2:物思いにふける女性の表情
次に、頬杖をついて物思いにふけっているような女性の画像です。

考察
こちらの画像については、3つのモデルとも「物思い」「悲しみ」「心配」といった、私自身の解釈と非常に近い推定を行いました。頬杖をついて物思いにふける、といった仕草は、文化的な背景だけでなく年齢による差も比較的小さく、世代を問わず共通して見られるものです。そのため、AIにとってもパターンを学習しやすく、判断が容易だったのかもしれません。
まとめ
今回の検証で、VLMの表情認識能力の現在地と課題が見えてきました。
物思いにふける女性の表情は高精度に認識できた一方、新聞を読む男性の表情は、人間の感覚とはズレたネガティブなものとして解釈されました。この差を生んだのは、表情が持つ「普遍性」と、AIの「学習データの偏り」だと考えられます。
頬杖をつくという仕草は年齢を問わない普遍的なものですが、集中した際の「渋い顔」は高齢者特有のニュアンスを含みます。AIは、学習データが少ない高齢者の表情をデータが豊富な若者の表情パターンを基準に判断してしまい、今回の解釈のズレが生まれたのではないでしょうか。
このことから、AIが人間の表情を真に理解するためには状況や文化といった高次のコンテキスト読解能力に加え、その基盤となる多様で偏りのないデータセットの重要性を改めて認識させられました。今後のVLMの進化に引き続き注目していきたいと思います。


コメント