スポンサーリンク
Googleが提供するPCで動くLLM、Gemmaが出た時に試してさらにGemma2のときも試した。Gemma3が出たので、前回質問と回答をまず試してみた。
サンプルプログラムを見ると、写真から説明文を生成する機能があるようだ。VLM機能を試してみよう。
テキスト生成AIについてのまとめはこちら。
Gemma3の前回の記事はこちら。
前回はテキストによる質問と回答を見た。サンプルプログラムを見ていたら、あれ、写真を参照して説明を表示する機能もあるようだ。今回はこのVLM機能を試してみよう。
VLMは以前、サイバーエージェントが提供するLlava-CALM2を試した。実用性はまだというものだった。
当時の記事と、再度試した記事は以下のもの。
今回はGemma3とLlava-CALM2を比較する。
HuggingFaceのページはこちら。


Gemma3 HuggingFace
前回の記事を参照。
質問の内容によるが、30秒くらいで回答が表示されるようだ。なお今回はすべて日本語で質問している。
Gemma2のときはできなかったと思うので、今回は比較対象をLlava-CALM2にしている。
先に動画を紹介する。
✓は正解、×は不正解を示している。太字は誤っているところ。
| 質問 | Gemma3 | Llava-CALM2 |
|---|---|---|
AMD CPU![]() ![]() |
✓ この写真には、AMD Ryzen 5 8000シリーズ プロセッサのパッケージが写っています。 以下に詳細な説明をします。 |
× 画像には、黒い背景の上に置かれた、 AMDK5という型番のCPUの箱が映っています。 箱は立方体の形で、前面に「AMDK5」のロゴと 「B05」の文字が白で印字されています。 箱の側面には、CPUの仕様が記載されています。 |
| モニタアームを付けた ディスプレイ3台 ![]() ![]() |
× この写真には、複数のモニターが設置された パソコンのセットアップが写っています。 以下に詳細な説明をします。 **全体的な状況:** * **モニターの数:** 4台のモニターが、 アームを使って設置されています。 |
× 画像には、3つのモニターと、それらの 上に設置された1つのモニターが映っています。 左側のモニターには、黒い背景に 白い文字で 「Windows 11」と表示されています。中央のモニターには、 同じく黒い背景に白い文字で「Windows 11」と 表示されています。右側のモニターには、 黒い背景に白い文字で「Windows 11」と 表示されています。また、その下には、 黒い背景に白い文字で「Windows 11」と 表示されたモニターが設置されています。 |
モトローラrazr50 Ultra![]() ![]() |
× この画像には、モトローラの折りたたみスマートフォン 「モトローラ フォールドアイド」が2台並んでいます。 |
◎ 画像には、2台のスマートフォンが写っています。 左側のスマートフォンは、前面が黒く、背面がオレンジ色 です。右側のスマートフォンは、前面が黒く、背面がピンク色 です。2台とも、画面が点灯しており、時刻は11:35です。 左側のスマートフォンの画面には、バッテリー残量が 35%であることが示されています。 |
Xiaomi14TPro![]() ![]() |
△ この画像は、スマートフォン(おそらくOPPO Find X6 Pro)のカメラシステムを特徴としています。 以下に詳細な説明をまとめます。 **全体的な構成:** * **カメラモジュール:** スマートフォンの背面 中央に、3つのレンズが配置されたカメラモジュールが 配置されています。以下略 |
✓ 画像には、背面に3つのカメラレンズが縦に 並んだスマートフォンが写っています。カメラレンズは、 いずれも円形で、レンズの周囲は黒く縁取られています。 また、カメラレンズの下には、フラッシュライトの ようなものが2つ並んでいます。スマートフ ォン 本体は、背面が銀色で、側面は黒色です。 |
SSD2つ![]() ![]() |
✓ この写真には、2つのソリッドステート ドライブ(SSD)が写っています。 **左側のSSD:** * **メーカー:** Team Group * **モデル:** CX2 CLASSIC * **色:** 緑と白のグラデーション * **特徴:** 「Solid State Drive」と記載 されており、SSDであることを示しています。 ロゴにはTeam Groupのロゴと製品名が記載 されています。 **右側のSSD:** * **メーカー” |
△ 画像には、2つの黒いSSD(ソリッドステート ドライブ)が写っています。左側のSSDは、Team Groupのロゴが入った「CX2 」というモデルで、 右側のSSDは、Samsungのロゴが入った「Samsung 860 EVO」というモデルです。どちらも、黒い プラスチック製の ケースに収められています。 CX2のケースには、緑色の文字で「Team Group」と 書かれています。Samsung 860 EVOのケースには、 オレンジ色の文字で「Samsung」と書かれています。 |
トラックボール2つ![]() ![]() |
× この写真には、2つのマウスが写っています。 * **左のマウス:** これはLogitechのMX Ergoという モデルのようです。特徴的なのは、エルゴノミックな形状で、 手のひらを自然な位置に保つように設計されていることです。 また、ボール型のサイドボタンが2つあります。 * **右のマウス:** これはLogitechのMX Master 3と いうモデルのようです。こちらもエルゴノミックな形状 ですが、よりコンパクト |
△ 画像には、2つのコンピューターマウスが写って います。左のマウスは、灰色と青の2色で、右のマウスは 黒とオレンジの2色です。左のマウスは、右のマウスよりも 少し小さく、右のマウスは、左のマウスよりも少し大きい です。左のマウスには、スクロールホイールが付いて いますが、右のマウスには、スクロールホイールが 付いていません。 |
太陽の塔![]() ![]() |
× この写真は、フィリピンのサン・セバスチャンに ある「タオ・デ・ラ・グローサ」と呼ばれる巨大な 彫刻です。以下に詳細を説明します。 **全体的な特徴:** * **巨大な柱:** 写真は、この彫刻の柱のかなり 上部を捉えています。柱は白く、表面には赤色の ラインが描かれています。 * **顔:** 柱の中央には、大きな顔が彫 |
△ 画像には、白い像と青空が 写っています。像は、上半身が人間、 下半身が鳥のような姿をしています。 像の頭部は、太陽 のような形を しています。像の台座には、赤い 模様が描かれています。像の周囲には、 木々や建物が見えます。 |
ピザ![]() ![]() |
✓ この写真には、テーブルに置かれたピザが 写っています。以下に詳細な説明をします。 **ピザについて:*** **種類:** 薪窯焼きの ピザのようです。生地は 厚みがあり、表面には焦げ目が入っています。 * **トッピング:** * トマトソースベース * チーズ(モッツァレラチーズのような 白いチーズ) * ベーコン(またはソーセージのような |
✓ 画像には、木製のテーブルの上に 置かれたピザが映っています。ピザは、丸い 形をしており、トマトソースとチーズが トッピングされています。ピザの上には、卵と ソーセージが乗っています。卵は、黄身が オレンジ色で、白身が白く、丸い形を しています。ソーセージは、茶色く、 細長く、輪切りにされています。ピザの 隣には、透明なグラスに入った飲み物と、 紙ナプキンが置かれています。 |
お好み焼き![]() ![]() |
× この写真には、鉄板焼き器の上で 調理された、見た目も豪華なオムそばが 写っています。以下に詳細な説明をします。 **全体的な印象:** * **料理:** オムそば(オムソバ)と 呼ばれる料理です。そばを卵で包み、 ソースをかけたものです。 * **調理状態:** 鉄板焼き器の上で 調理されており、卵が少し焦げた部分と、 そばが絡み |
△ 画像には、鉄板の上で調理されて いるお好み焼きが映っています。 お好み焼きは、小麦粉、卵、キャベツ、 豚肉、イカ、 エビなどの具材を混ぜて 焼いたものです。このお好み焼きは、 ソースとマヨネーズがかけられており、 表面はこんがりと焼けています。 鉄板は、調理器具として使用される 金属製の調理板です。 |
カツカレー![]() ![]() |
△ この写真には、カレーライスとメンチ カツが盛り付けられたお皿が写っています。 以下に詳細な説明をします。 **全体的な構成:** * **お皿:** 白い楕円形の皿に、料理が 盛り付けられています。 * **テーブルクロス:** 皿の下には、 茶色とベージュのチェック柄のテーブル クロスが敷かれています。 **料理:** * **カレーライス:** * 濃い |
✓ 画像には、白い皿に盛られた カレーライスが映っています。皿の上には、 ご飯、カレー、カツがのっています。 ご飯は皿 の左側に、カレーはご飯の上に、 カツはカレーの上にのっています。カツは、 茶色で、衣がついています。カレーは、 茶色で、粘度が高そうです。ご飯は、 白く、ふっくらとしています。皿は、 白くて、丸く、縁が低くなっています。 |
道頓堀![]() ![]() |
△ この写真は、夜の大阪のドトウボリ (渡り鳥)の風景です。以下に 詳細な説明をします。 **全体的な印象:** * 夜の街並みが、ドトウボリのライトと ネオンサインによって照らされています。 * ボートが水面を滑り、活気のある 雰囲気を醸し出しています。 * 多くの人々がボートに乗ったり、 岸辺で食事を楽しんだり |
△ 画像には、夜の水上を進むボートが 写っています。ボートは、赤と白の 2色で、船体の側面には「大阪城」の文字と、 大阪城のイラストが描かれています。 ボートの上には、数人の人が乗っています。 ボートの後ろには、ビルやマンションなどの 建物が建ち並び、その明かりが水面に 反射しています。ビルの壁面には、 さまざまな広告や看板が掲げられて います。 |
大阪城![]() ![]() |
✓ この写真は、日本の大阪城の 天守閣の一部を捉えたものです。以下に 詳細な説明をします。 **全体的な印象:** * **豪華な装飾:** 天守閣は、 鮮やかな緑色の屋根と、金色の装飾が 施されており、非常に豪華で荘厳な 印象を与えます。 * **伝統的な建築様式:** 日本の 城郭建築の特徴である、複雑な屋根の 形状や、龍や獅子 |
△ 画像には、緑と金色の屋根瓦を 持つ城が写っています。城の壁は白く、 窓枠は黒く塗られています。城の上部には、 2つの金色の像が乗っています。像は、 ライオンの頭と人間の胴体で構成されて います。城の周囲には、緑の木々が 茂っています。 |
ここまで見てきて、大きな誤りがあるものがいくつかある。この辺りはLLMの学習情報が少ないからなのだろうと思う。
特定分野向けに絞って、学習したデータを用意したらいい精度でできるかもしれない。ただしそうすれば汎用で使うことができなくなる。
と考えると、かなり大規模なデータを持つLLMで使う必要があり、PCのスペックが高くなるだろう。
PR