top of page
検索

VLMは人の表情をどう記述する?GeminiとGPT-4oで比較実験

  • Haruka Asanuma
  • 2025年10月3日
  • 読了時間: 13分

こんにちは、Quixotiksインターンの浅沼です。

今回は、最新のVLM(Vision-Language Model)に画像内の人物の表情を自由に記述させ、その能力を検証した実験結果を報告します。

前回のブログで、モデルはIn the Wildの表情データセットを正確に6〜7分類することが難しい、と報告しました。そこで今回は、モデルに人の表情を記述させることで、そもそも顔を認識できていない」のか、それとも「顔は認識できているが、表情の微妙なニュアンスを分類できていない」のかを明らかにすることを目指しました。

モデル

実験には、Gemini-2.5-flash、Gemini-2.5-pro、gpt-4o-2024-11-20を使用しました。

これらのモデルは様々な画像認識ベンチマークで高い性能を誇っている代表的な商用VLMで、実験を行った当時の最新モデルを採用しました。

データセット: CAER-S

データセットには、前回の記事でも使用したCAER-Sを用いました。CAER-Sは、日常的な環境で撮影された動画データを切り出された静止画で構成されており、現実世界でのAIの性能を測るのに適しています。

(注)CAER-Sは商用利用が可能なライセンスであるため、本ブログに掲載しています。

実験

以下のようなプロンプトを英語で入力し、得られた英語の出力を日本語に訳して報告しています。CAER-Sのデータセットは欧米のコンテンツが中心のため、日本語よりも英語で指示する方がモデルの性能を最大限に引き出せると考えました。

プロンプト

###💡

写真の中の人間の顔表情を記述してください。

###

結果

前回の実験結果に基づき、「分類しやすい表情(Happy, Sad)」と「分類を間違えやすい表情(Anger, Disgust, Surprise)」、「全く分類できない表情(Fear)」に分けて結果を見ていきましょう。


分類しやすい表情

前回の実験で、 HappyやSadは高頻度で分類に成功することがわかりました。まずHappyとSadの画像の記述について見ていきましょう。


Happy

すべてのモデルは、写真に映っている女性から”楽しそう”、というポジティブな感情を正しく認識しています。

特筆すべきは、この画像がアメリカのドラマ『フレンズ』のワンシーンである点をGeminiが認識していることです。Gemini Flashは登場人物を「モニカ」という固有名詞で言及しており、画像と関連知識を紐づけて応答していることが分かります。

gemini-2.5-flash

gemini-2.5-pro

gpt-4o-2024-11-20

写真に写っている人物モニカの顔には、大きくて心からの笑顔が浮かんでいる。口は開いており、上の歯が見えている。頬は持ち上がっていて、目の周りには少しシワが寄っている。彼女の目は明るく生き生きとしており、幸せ・おかしさ・満足感を感じていることを示している。おそらくカメラの外にある何かに対して、前向きな反応をしているのだろう。

元の画像と提供された切り抜きに基づくと、その女性は楽しげでおかしそうな表情をしている。主なポイントは以下の通りである。 口: 唇は大きく開いており、心からの笑顔で上の歯が見えている。口角は大きく上がっている。 目: 目は明るく、端に少しシワが寄っており、これはデュシェンヌ・スマイル(本物の笑顔)の特徴である。視線はやや横に向けられていて、誰かや何かに対して楽しげに反応しているように見える。 全体: 笑顔の口と輝く目が組み合わさり、幸福感・喜び・温かさを伝えている。ちょうど楽しく心地よい瞬間の最中にいるように見える。

その人物は陽気で楽しそうな表情をしているように見える。口を少し開けて笑っており、それは楽しげに笑っているか、心地よく話していることを示唆している。目はやや細められており、喜びや楽しさを反映している。




Sad

この画像は人間が見ても典型的な「悲しみ」の表情だと判断できます。 全てのモデルがネガティブな感情を読み取っていますが、両方のGeminiモデルが「強い苦痛」「悲嘆」「深い悲しみ」といった直接的な言葉で悲しみを表現しているのに対し、GPT-4oは「苛立ちや苦悩」と、少しニュアンスの異なる解釈をしています。

gemini-2.5-flash

gemini-2.5-pro

gpt-4o-2024-11-20

前景にいる茶色の髪の人物は、強い感情的苦痛や悲嘆の表情を浮かべている。主な特徴は以下の通りである: 目: ぎゅっと閉じられており、深い感情や涙をこらえようとしていることを示している。 口: 大きく開かれており、悲しみによる泣き声・嗚咽・あるいは叫びに一致する形をしている。 眉: ひそめられていて、痛みや悲しみの表情を強調している。 全体: この表情は深い悲しみや絶望、あるいは極度の感情的な吐露の瞬間を伝えている。

提供された画像に基づくと、前景にいる女性は強い苦悩と悲嘆の表情をしている。彼女の顔の特徴を分解すると次の通りである:目: ぎゅっと強く閉じられている。 眉: ひそめられ、内側に寄っており、悲しみや痛みを示す典型的なサインである。 口: 唇を開いており、すすり泣きや叫び声、嗚咽の最中であるかのように見える。 全体: 顔全体がゆがみ、深い悲しみ、悲嘆、感情的な混乱を伝えている。彼女は抑えきれずに泣き続けているように見える。

前景にいる人物は感情的な表情をしており、口を開け、眉を少しひそめていることから、苛立ちや苦悩を表している可能性がある。




分類を間違えやすい表情

次に、前回の分類実験でモデルが混同しやすかった Anger, Disgust, Surprise です。


Anger

この画像は典型的とは言わないまでも、多くの人が「怒り」の表情だと判断できそうな画像です。

全てのモデル「怒り」とは断定せず、「疑問」「困惑」「懐疑的」といった、ネガティブでありながらも少し異なる感情を読み取っています。顔の認識はできていますが、特定のカテゴリに分類する難しさがうかがえます。

gemini-2.5-flash

gemini-2.5-pro

gpt-4o-2024-11-20

その男性の表情は、会話の最中に発言しているか考え込んでいる様子を示している。口は少し開いており、話している、または話し始めようとしているように見える。眉はやや上がっており、特に左の眉が少し上がっているため、表情にはいくらか疑問を含んだ・思索的な、あるいはやや戸惑った雰囲気が加わっている。視線はカメラから少し外れており、誰かと関わっていることを示している。全体として、彼は何かを説明している最中か、あるいは発言に対して微妙なニュアンスを込めて反応しているように見える。

元の画像と提供された切り抜きに基づくと、(テレビ番組 Friends に登場するマシュー・ペリー演じる)チャンドラー・ビングは、困惑しつつ苛立ったような表情をしている。この表情を形作っている特徴を分解すると以下の通りである:眉: 上がりつつ少し寄せられており、混乱、不信、あるいはわずかな苛立ちを示している。 目: 大きく見開かれ、焦点が合っていて、強く主張しようとしているか、聞いていること・説明していることに対して信じられないという反応を示している。口: 唇は少し開き、わずかに下向きに曲がっており、信じられないという口調で話している最中、あるいは皮肉めいた発言をしようとしているように見える。 全体: この表情に加えて、両手を広げて身振りしていることから、彼は自分が馬鹿げていると思うことを説明しているか、状況に対して困惑しつつ、彼特有の皮肉を込めて反応していることが強く伝わってくる。

その人物は困惑または懐疑的な表情をしているように見える。眉は少しひそめられており、口はわずかに開いていて、不信や驚きをもって反応していることを示唆している。




Disgust

この写真から女性が不快な気持ちであることは読み取れます。人間でもDisgustに分類することができそうな画像です。

Geminiは「苛立ち」や「懐疑的」といった関連するネガティブな感情を捉えています。一方でGPTは「軽い楽しさ」、「気軽な興味」といった全体的にポジティブな解釈をしています。

この例では、Geminiのほうが表情のニュアンスをより正確に捉えられていると言えます。

gemini-2.5-flash

gemini-2.5-pro

gpt-4o-2024-11-20

写真に写っている人物、モニカ・ゲラー(コートニー・コックス演)は、苛立ち、不信、そして少しの疲れた懐疑心や皮肉めいたおかしさを混ぜた表情を浮かべている。内訳は以下の通りである:<br>目: 目は開いており、やや上方と右に向けられている。まるで画面外の何かを「うんざり」「馬鹿げている」と感じて反応しているか、「信じられる?」と心の中で思っているかのようである。眉: 特に左側が少し上がっていて、疑問や不信を感じているような印象を与えている。 口: 口はわずかに開いており、口角にはかすかな、ほとんど嘲笑的な、あるいは「はあ、ほんとに?」とでも言いたげな表情がにじんでいる。完全な笑顔ではないが、皮肉やうんざりした反応を示す特有の形になっている。 全体の印象: 腕を組み、ややもたれかかるといったリラックスしながらも閉じ気味のボディランゲージと相まって、この表情は「うんざりする」「ばかばかしい」「もはや信じがたい」といった状況に耐えている、あるいは反応していることを強く示している。

提供された画像に基づくと、その女性は苛立ち・うんざり感・懐疑心が入り混じった表情をしている。特徴的な視覚的サインは以下の通りである: 目: 半分閉じられ、上や横を見ており、典型的な「目を転がす」仕草で、聞いていることに感心していない、あるいは軽視していることを示している。 口: 唇は少しすぼめられ、わずかに開いており、皮肉めいたコメントをこらえているか、不信のため息をついているように見える。 頭の傾き: 頭をソファに後ろにもたせかけており、他の特徴と組み合わせると「もううんざり」という印象を強めている。さらに、腕を強く組んだボディランゲージが、この不満や反発の表情を一層裏付けている。全体として、彼女は状況や発言を「馬鹿げている」と感じ、それを隠さず表に出しているように見える。

その人物はリラックスした姿勢でソファにもたれかかっているように見える。顔の表情は、軽い楽しさ・気軽な関心、あるいは遊び心のある皮肉を示しており、口元のかすかな笑みや上向きの視線からそれが感じられる。全体として、雰囲気は気楽でくつろいでいる。




Surprise

この写真に写っている人間から「驚き」の表情を読み取るのは人間にとってもかなり難しいと思われます。

全てのモデルは「驚き」とは判断せず、「思索」「懐疑的」などネガティブな表情であると推定していました。画像が高級レストランのような場所で撮影されている文脈を考えると、必ずしもネガティブな驚きではない可能性もあり、文脈理解の重要性も示唆されます。

gemini-2.5-flash

gemini-2.5-pro

gpt-4o-2024-11-20

写真に写っている人物、ジョーイ・トリビアーニは、思案とわずかな心配や不確かさが入り混じった表情をしている。内訳は以下の通りである: 目: 視線はカメラから少し外れ、左側を見ている。大きく見開かれてはいないが、やや集中しているように、あるいは細められているように見える。 眉: 眉は中央で少し寄っており、特に内側の角が目立つ。これは考え込み、心配、あるいは困惑を示すことが多い。 口: 唇は閉じられ、ニュートラルからわずかに下がり気味で、笑顔や明るさは見られない。 全体: 明確に幸せそうでも悲しそうでもなく、むしろ何かを深く考え込んでいるようで、少し不安や迷いを感じているように見える。

提供された画像に基づくと、その男性は思索的でやや懐疑的な表情をしている。この表情を形作っている要素は以下の通りである: 目: 視線は横に向けられており、画面外の誰かや何かを見たり聞いたりしている様子を示している。 眉: わずかにひそめられており、集中・心配・軽い疑念を表している。 口: 唇は固く閉じられ、ニュートラルからわずかに下向きのラインを描いている。これは思慮深さや、言いたいことを抑えているような印象を与える。 全体: 彼の表情は、情報を慎重に処理しつつ、どこか疑わしさや物憂げな感情を帯びているように見える。

写真に写っている人物は、やや中立的または少し居心地の悪そうな表情をしている。唇はわずかにすぼめられており、目にも強い感情は表れていない。これは、その瞬間に気まずさ、不確かさ、あるいは思案を感じていることを示唆している。




全く分類できない表情

最後に、前回の実験で全く分類できていなかったFearです。


Fear

この男性の表情から「恐怖」を読み取るのは、人間にとっても非常に困難です。

実際、全てのモデルが「困惑」や「不安」といったネガティブな感情は指摘したものの、「恐怖(Fear)」と直接言及したものはありませんでした。この結果は、静止画一枚の入力では表情を正しく理解するための文脈情報が決定的に不足していることを示唆しています。

gemini-2.5-flash

gemini-2.5-pro

gpt-4o-2024-11-20

画像の男性(ロス・ゲラー)は、思索的でやや困惑した表情をしている。内訳は以下の通りである: 眉: 眉はわずかに上がり、中央で寄せられており、額に小さなシワができている。これは考え込み、心配、あるいは混乱を示すことが多い。 目: 視線は上方、そしてやや左(見る側からすると右)に向けられており、何かを考えている、答えを探している、または画面外の出来事に反応しているように見える。目は大きく見開かれてもいなければ細められてもいない。 口: 唇は閉じられ、わずかに固く結ばれていて、口角がほんの少し下がっている。これは軽い熟考、わずかな失望、あるいは「考え中の顔」を示しており、リラックスや幸福感は見られない。 全体: 眉、視線、口の組み合わせから、彼は何かを深く考え込んでおり、難しい選択を検討している、あるいは驚きや困惑する状況にさりげなく反応していると考えられる(特にカードを手にしていることから、ゲームの最中である可能性が高い)。

画像に基づくと、その男性は哀願するような、やや悲しげな表情をしている。この表情を形作っている特徴は以下の通りである:目: 大きく見開かれ、やや上方を見ており、典型的な「子犬のような目」の印象を与えている。 眉: 特に中央部分が持ち上がっていて、不安や問いかけるような感情を示している。 口: わずかに開いており、口角が少し下がっていて、悲しみや失望を感じさせる。 全体: この表情は弱さやもろさを伝えており、まるで優しく誰かを説得しようとしているか、好意的な返答を期待しているかのように見える。これはしばしば『フレンズ』のキャラクター、ロス・ゲラー(デヴィッド・シュワイマー演)に結びつけられる表情である。

その人物は思案している、あるいはやや不安げな表情をしているように見える。眉はわずかに上がっており、唇には微かな緊張が感じられ、集中と不確かさが入り混じった印象を与えている。




まとめ

今回の実験から、以下のことが分かりました。

  1. 実環境の表情認識は非常に難しい データセットを詳細に見ると、特にFear, Surpriseなどは人間でも一つのカテゴリに分類するのが難しい画像が多く含まれていました。これは、前回の分類タスクでモデルの精度が伸び悩んだ一因と考えられます。

  2. Geminiはより詳細で分析的な記述を生成する 全体的に、GeminiはGPT-4oよりも詳細な記述を生成する傾向がありました。特に、表情を判断する根拠として、眉の角度、目の開き方、口角の形といった顔のパーツの動きを細かく報告するのが特徴的でした。

  3. 総合的な表情の読解力はGeminiに軍配か Disgustの例のように、感情のニュアンスをより的確に捉えているケースが見られました。顔のパーツに基づいた具体的な記述と合わせて考えると、総合的な表情認識能力はGeminiの方が一歩進んでいる可能性が示唆されます。

  4. Gemini FlashとProに顕著な差は見られなかった 今回の実験の範囲では、Gemini Proと、より軽量なGemini Flashの間に顕著な性能差は見られませんでした。これは、コスト効率を考慮する上で興味深い点です。 また、Gemini Flashの応答速度はGemini Proのものより約1.3〜1.5倍ほど早かったです。このことから、表情認識のタスクではGemini Flashを使うのが良いように思いました。


最新のVLMはポジティブ-ネガティブといったおおまかな表情の方向性は捉えられる一方で、表情が持つ微妙なニュアンスを完全に捉えるには至っていないことがわかりました。この課題が、静止画一枚という文脈の少ない情報に起因するものなのか、あるいはモデルの根本的な能力によるものなのかを切り分けることが、今後の重要な検証ポイントだと考えられます。

 
 
 

最新記事

すべて表示
DGX SparkでDocker+GPUを用いてtorchaudioを動かす方法

はじめまして!2024年10月から株式会社Quixotiksでインターンをしている深澤です。 現在は NVIDIA DGX Spark を使用して音声認識(ASR)に関する業務に携わっています。 ローカル ASR を Docker + GPU で動かす際に PyTorch の互換性エラーで少しハマったので、原因と解決方法をメモとして残します。 同じ状況の方の参考になれば幸いです! 背景 ローカル

 
 
 
日本人・東アジア人特化の表情データセット

こんにちは、Quixotiksインターンの浅沼です。 前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。 そこで今回は、こうした日本人(アジア人)や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。 最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます

 
 
 
Quixotiks-2.png

株式会社 Quixotiks

東京都渋谷区神泉町 20-21 クロスシー渋谷神泉ビル

03-6826-2232

営業時間/平日9:00〜19:00

スクリーンショット 2024-03-06 17.57.17.png
  • alt.text.label.Facebook

Copyright © 株式会社 Quixotiks All rights Reserved.

bottom of page