top of page
検索

AIは"おじいちゃんの渋い顔"をどう解釈する?VLMの表情認識をアジア人高齢者で検証

  • Haruka Asanuma
  • 10月14日
  • 読了時間: 6分

こんにちは、Quixotiksインターンの浅沼です。

前回のブログでは、VLM(大規模視覚言語モデル)であるGeminiとGPTが、画像内の人物の表情をどの程度読み取れるかについて検証しました。その結果、ポジティブかネガティブかといった、表情の大まかな方向性は捉えられることが分かりました。 ただ、前回のデータセットは白人や若年層の画像が中心でした。AI開発で使われるデータセットの多くがそうであるように、そこには偏りが存在します。 そこで今回は、ある意味でデータセットの「外れ値」とも言えるアジア人(日本人)・高齢者の表情認識について、最新のVLMがどのような精度を示すのか追加で検証してみることにしました。


実験の概要

  • 使用モデル:

    • Gemini-2.5-flash

    • Gemini-2.5-pro

    • gpt-5-2025-08-07

  • 使用画像:

    • フリー素材サイト「ぱくたそ」様より、高齢者の画像を2枚お借りしました。

実験1:新聞を読む男性の表情

新聞を真剣に読んでいる男性の画像です。各モデルは、この表情を以下のように記述しました。

ree

gemini-2.5-flash

gemini-2.5-pro

gpt-5-2025-08-07

写真の男性は、真剣で思索的な表情をしており、読んでいる内容に対して懸念や深い考えを抱いているように見える。主な特徴は以下の通りである:眉: ひそめられており、額にシワが寄っている。これは集中や心配を示している。


目: 眼鏡に縁取られた目は下を向いており、手に持った書類に強く焦点を合わせている。


口: 最も目立つ特徴であり、口角がはっきりと下がっており、しかめ面または苦い表情を作っている。唇はやや固く閉じられている。


あご: わずかに持ち上がるように押し上げられており、そのことが口角の下がった表情をさらに強調し、全体として軽い苦悩・集中・熟考の印象を与えている。


全体として、彼は深く考え込む必要のある情報を読み取っており、そこには不快感・困難さ・心配といった感情がうかがえる。

提供された画像に基づくと、その男性は強い集中と、不快感または懸念が入り混じった表情をしている。この表情を形作っている主な特徴は以下の通りである:


額と眉: 額にはシワが寄り、眉は少しひそめられており、強い集中や心配を示している。


目: 視線は下に向けられており、おそらく読んでいる新聞に集中している。


口: 最も印象的な部分であり、唇はすぼめられ、口角が大きく下がっている。はっきりとしたしかめ面を作っており、読んでいる内容に不快感・動揺・失望を感じていることを示唆している。


全体として、彼は読んでいる情報に対して真剣に考え込むか、否定的な反応を示しているように見える。

彼は眼鏡の奥で目を細め、ほとんど閉じかけている。眉はわずかにひそめられ、唇は軽く下向きに引き結ばれている。これは集中しているか、あるいは軽い困惑を表す表情である。

考察

興味深いことに、全てのモデルが「困惑」「心配」「不快」といったネガティブ寄りの感情を推定しました。

しかし、日本人である私の感覚からすると、新聞に集中するときの高齢者は、ごく自然にこのような「渋い顔」になるもので、必ずしも強いネガティブな感情の表れとは限りません。

このAIとの解釈のズレは、単なる文化的なコンテキストの違いだけでなく、学習データセットの年齢層の偏りに起因するのではないか、と考えられます。AIは、データが豊富な若者の表情パターン(眉をひそめる=不満や困惑)を学習し、それを高齢者の画像にも適用してしまったのではないでしょうか。つまり、高齢者特有の表情のニュアンスを汲み取るためのデータが不足しているため、若者の表情を基準に判断した結果、このような推定になったのではないでしょうか。

実験2:物思いにふける女性の表情

次に、頬杖をついて物思いにふけっているような女性の画像です。

ree

gemini-2.5-flash

gemini-2.5-pro

gpt-5-2025-08-07

その女性の表情は、憂鬱・心配・深い思索の感情を伝えている。主な要素は以下の通りである:


目: 視線は下向きで、やや右下を見ており、直接的な視線を避けている。これは内省的な気持ち、悲しみ、あるいは外界への関心の欠如を示唆する。


口: 口は閉じられ、口角がわずかに下がっている。 これは満足や怒りではなく、沈んだ・不安な気持ちを強調している。


手の位置: 右手が頬やあごにしっかりと当てられており、 この仕草は次のような意味を持つことが多い:


深い思索や沈思: 彼女は考え事に没頭しているように見える。


悲しみや心配: 頭を支えるような手の動きは、疲労や感情的負担を示すことがある。


身体的な不快感や痛み: この姿勢は歯痛、あごの痛み、頭痛などのときにもよく見られる。


全体として、 彼女の表情は落ち着いていて内省的であり、内面での苦悩や深い思索を経験していることをうかがわせる。

提供された画像に基づくと、その高齢の女性は悲しみ・心配・思索を感じさせる表情をしている。この表情を形作っている具体的な特徴は以下の通りである:


目: 視線は下向きで、やや外を向いており、これは悲しみ、恥じらい、または深い思考を示すことが多い。


口: 唇は閉じられ、口角がわずかに下がっており、典型的な不満や落胆のサインとなっている。


眉: 眉はほぼ中立からやや下がった位置にあり、心配や不安の印象を与えている。


しぐさ: 頬を手のひらに預けており、これは沈思、悩み、あるいは疲労を感じている人によく見られる姿勢である。


全体として、 彼女の表情は憂鬱と心配を帯びており、何かに深く心を痛めているか、沈んだ思いに沈んでいるように見える。

彼女は物思いにふけり、少し悲しげまたは心配そうに見える。わずかに眉をひそめ、口元には軽いしかめ面を浮かべ、視線を下に向けながら、頬に手を添えている。

考察

こちらの画像については、3つのモデルとも「物思い」「悲しみ」「心配」といった、私自身の解釈と非常に近い推定を行いました。頬杖をついて物思いにふける、といった仕草は、文化的な背景だけでなく年齢による差も比較的小さく、世代を問わず共通して見られるものです。そのため、AIにとってもパターンを学習しやすく、判断が容易だったのかもしれません。

まとめ

今回の検証で、VLMの表情認識能力の現在地と課題が見えてきました。

物思いにふける女性の表情は高精度に認識できた一方、新聞を読む男性の表情は、人間の感覚とはズレたネガティブなものとして解釈されました。この差を生んだのは、表情が持つ「普遍性」と、AIの「学習データの偏り」だと考えられます。

頬杖をつくという仕草は年齢を問わない普遍的なものですが、集中した際の「渋い顔」は高齢者特有のニュアンスを含みます。AIは、学習データが少ない高齢者の表情をデータが豊富な若者の表情パターンを基準に判断してしまい、今回の解釈のズレが生まれたのではないでしょうか。

このことから、AIが人間の表情を真に理解するためには状況や文化といった高次のコンテキスト読解能力に加え、その基盤となる多様で偏りのないデータセットの重要性を改めて認識させられました。今後のVLMの進化に引き続き注目していきたいと思います。

 
 
 

最新記事

すべて表示
日本人・東アジア人特化の表情データセット

こんにちは、Quixotiksインターンの浅沼です。 前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。 そこで今回は、こうした日本人(アジア人)や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。 最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます

 
 
 

コメント


Quixotiks-2.png

株式会社 Quixotiks

東京都渋谷区神泉町 20-21 クロスシー渋谷神泉ビル

03-6826-2232

営業時間/平日9:00〜19:00

スクリーンショット 2024-03-06 17.57.17.png
  • alt.text.label.Facebook

Copyright © 株式会社 Quixotiks All rights Reserved.

bottom of page