IrvineのもっとPC自作日記
本ページはプロモーションが含まれています。
  
 

【LLM】Google製テキスト生成AI Gemma3を試してみた(2)

 

スポンサーリンク

 
【LLM】Google製テキスト生成AI Gemma3を試してみた(2)
 

Googleが提供するPCで動くLLM、Gemmaが出た時に試してさらにGemma2のときも試した。Gemma3が出たので、前回質問と回答をまず試してみた。
サンプルプログラムを見ると、写真から説明文を生成する機能があるようだ。VLM機能を試してみよう。

テキスト生成AIについてのまとめはこちら。

  

Gemma3とは

Gemma3の前回の記事はこちら。

前回はテキストによる質問と回答を見た。サンプルプログラムを見ていたら、あれ、写真を参照して説明を表示する機能もあるようだ。今回はこのVLM機能を試してみよう。

VLMは以前、サイバーエージェントが提供するLlava-CALM2を試した。実用性はまだというものだった。
当時の記事と、再度試した記事は以下のもの。

今回はGemma3とLlava-CALM2を比較する。

Gemma3のインストール

HuggingFaceのページはこちら。

Gemma3 HuggingFace

Gemma3 HuggingFace

インストール

前回の記事を参照。

写真の説明の回答文比較

質問の内容によるが、30秒くらいで回答が表示されるようだ。なお今回はすべて日本語で質問している。
Gemma2のときはできなかったと思うので、今回は比較対象をLlava-CALM2にしている。

先に動画を紹介する。

✓は正解、×は不正解を示している。太字は誤っているところ。

質問 Gemma3 Llava-CALM2
AMD CPU
✓ この写真には、AMD Ryzen 5 8000シリーズ
プロセッサのパッケージが写っています。
以下に詳細な説明をします。
× 画像には、黒い背景の上に置かれた、
AMDK5という型番のCPUの箱が映っています。
箱は立方体の形で、前面に「AMDK5」のロゴと
「B05」の文字が白で印字されています。
箱の側面には、CPUの仕様が記載されています。
モニタアームを付けた
ディスプレイ3台
× この写真には、複数のモニターが設置された
パソコンのセットアップが写っています。
以下に詳細な説明をします。
**全体的な状況:**
* **モニターの数:** 4台のモニターが、
アームを使って設置されています。
× 画像には、3つのモニターと、それらの
上に設置された1つのモニターが映っています。
左側のモニターには、黒い背景に 白い文字で
「Windows 11」
と表示されています。中央のモニターには、
同じく黒い背景に白い文字で「Windows 11」と
表示されています。右側のモニターには、
黒い背景に白い文字で「Windows 11」と
表示されています。また、その下には、
黒い背景に白い文字で「Windows 11」と
表示されたモニターが設置されています。
モトローラrazr50 Ultra
× この画像には、モトローラの折りたたみスマートフォン
「モトローラ フォールドアイド」が2台並んでいます。
◎ 画像には、2台のスマートフォンが写っています。
左側のスマートフォンは、前面が黒く、背面がオレンジ色
です。右側のスマートフォンは、前面が黒く、背面がピンク色
です。2台とも、画面が点灯しており、時刻は11:35です。
左側のスマートフォンの画面には、バッテリー残量が
35%であることが示されています。
Xiaomi14TPro
△ この画像は、スマートフォン(おそらくOPPO
Find X6 Pro
)のカメラシステムを特徴としています。
以下に詳細な説明をまとめます。
**全体的な構成:**
* **カメラモジュール:** スマートフォンの背面
中央に、3つのレンズが配置されたカメラモジュールが
配置されています。以下略
✓ 画像には、背面に3つのカメラレンズが縦に
並んだスマートフォンが写っています。カメラレンズは、
いずれも円形で、レンズの周囲は黒く縁取られています。
また、カメラレンズの下には、フラッシュライトの
ようなものが2つ並んでいます。スマートフ ォン
本体は、背面が銀色で、側面は黒色です。
SSD2つ
✓ この写真には、2つのソリッドステート
ドライブ(SSD)が写っています。
**左側のSSD:**
* **メーカー:** Team Group
* **モデル:** CX2 CLASSIC
* **色:** 緑と白のグラデーション
* **特徴:** 「Solid State Drive」と記載
されており、SSDであることを示しています。
ロゴにはTeam Groupのロゴと製品名が記載
されています。
**右側のSSD:**
* **メーカー”
△ 画像には、2つの黒いSSD(ソリッドステート
ドライブ)が写っています。左側のSSDは、Team
Groupのロゴが入った「CX2 」というモデルで、
右側のSSDは、Samsungのロゴが入った「Samsung
860 EVO
」というモデルです。どちらも、黒い
プラスチック製の ケースに収められています。
CX2のケースには、緑色の文字で「Team Group」と
書かれています。Samsung 860 EVOのケースには、
オレンジ色の文字で「Samsung」と書かれています。
トラックボール2つ
× この写真には、2つのマウスが写っています。
* **左のマウス:** これはLogitechのMX Ergoという
モデルのようです。特徴的なのは、エルゴノミックな形状で、
手のひらを自然な位置に保つように設計されていることです。
また、ボール型のサイドボタンが2つあります。
* **右のマウス:** これはLogitechのMX Master 3
いうモデルのようです。こちらもエルゴノミックな形状
ですが、よりコンパクト
△ 画像には、2つのコンピューターマウスが写って
います。左のマウスは、灰色と青の2色で、右のマウスは
黒とオレンジの2色です。左のマウスは、右のマウスよりも
少し小さく、右のマウスは、左のマウスよりも少し大きい
です。左のマウスには、スクロールホイールが付いて
いますが、右のマウスには、スクロールホイールが
付いていません
太陽の塔
× この写真は、フィリピンのサン・セバスチャンに
ある「タオ・デ・ラ・グローサ」と呼ばれる巨大な
彫刻です。以下に詳細を説明します。
**全体的な特徴:**
* **巨大な柱:** 写真は、この彫刻の柱のかなり
上部を捉えています。柱は白く、表面には赤色の
ラインが描かれています。
* **顔:** 柱の中央には、大きな顔が彫
△ 画像には、白い像と青空が
写っています。像は、上半身が人間、
下半身が鳥のような姿をしています。
像の頭部は、太陽 のような形を
しています。像の台座には、赤い
模様が描かれています。像の周囲には、
木々や建物が見えます。
ピザ
✓ この写真には、テーブルに置かれたピザが
写っています。以下に詳細な説明をします。
**ピザについて:*** **種類:** 薪窯焼きの
ピザのようです。生地は
厚みがあり、表面には焦げ目が入っています。
* **トッピング:**
* トマトソースベース
* チーズ(モッツァレラチーズのような
白いチーズ)
* ベーコン(またはソーセージのような
✓ 画像には、木製のテーブルの上に
置かれたピザが映っています。ピザは、丸い
形をしており、トマトソースとチーズが
トッピングされています。ピザの上には、卵と
ソーセージが乗っています。卵は、黄身が
オレンジ色で、白身が白く、丸い形を
しています。ソーセージは、茶色く、
細長く、輪切りにされています。ピザの
隣には、透明なグラスに入った飲み物と、
紙ナプキンが置かれています。
お好み焼き
× この写真には、鉄板焼き器の上で
調理された、見た目も豪華なオムそばが
写っています。以下に詳細な説明をします。
**全体的な印象:**
* **料理:** オムそば(オムソバ)と
呼ばれる料理です。そばを卵で包み、
ソースをかけたものです。
* **調理状態:** 鉄板焼き器の上で
調理されており、卵が少し焦げた部分と、
そばが絡み
△ 画像には、鉄板の上で調理されて
いるお好み焼きが映っています。
お好み焼きは、小麦粉、卵、キャベツ、
豚肉、イカ、 エビなどの具材を混ぜて
焼いたものです。このお好み焼きは、
ソースとマヨネーズがかけられており、
表面はこんがりと焼けています。
鉄板は、調理器具として使用される
金属製の調理板です。
カツカレー
△ この写真には、カレーライスとメンチ
カツ
が盛り付けられたお皿が写っています。
以下に詳細な説明をします。
**全体的な構成:**
* **お皿:** 白い楕円形の皿に、料理が
盛り付けられています。
* **テーブルクロス:** 皿の下には、
茶色とベージュのチェック柄のテーブル
クロスが敷かれています。
**料理:**
* **カレーライス:**
* 濃い
✓ 画像には、白い皿に盛られた
カレーライスが映っています。皿の上には、
ご飯、カレー、カツがのっています。
ご飯は皿 の左側に、カレーはご飯の上に、
カツはカレーの上にのっています。カツは、
茶色で、衣がついています。カレーは、
茶色で、粘度が高そうです。ご飯は、
白く、ふっくらとしています。皿は、
白くて、丸く、縁が低くなっています。
道頓堀
△ この写真は、夜の大阪のドトウボリ
(渡り鳥)の風景です。以下に
詳細な説明をします。
**全体的な印象:**
* 夜の街並みが、ドトウボリのライトと
ネオンサインによって照らされています。
* ボートが水面を滑り、活気のある
雰囲気を醸し出しています。
* 多くの人々がボートに乗ったり、
岸辺で食事を楽しんだり
△ 画像には、夜の水上を進むボートが
写っています。ボートは、赤と白の
2色で、船体の側面には「大阪城」の文字と、
大阪城のイラストが描かれています。
ボートの上には、数人の人が乗っています。
ボートの後ろには、ビルやマンションなどの
建物が建ち並び、その明かりが水面に
反射しています。ビルの壁面には、
さまざまな広告や看板が掲げられて
います。
大阪城
✓ この写真は、日本の大阪城の
天守閣の一部を捉えたものです。以下に
詳細な説明をします。
**全体的な印象:**
* **豪華な装飾:** 天守閣は、
鮮やかな緑色の屋根と、金色の装飾が
施されており、非常に豪華で荘厳な
印象を与えます。
* **伝統的な建築様式:** 日本の
城郭建築の特徴である、複雑な屋根の
形状や、龍や獅子
△ 画像には、緑と金色の屋根瓦を
持つ城が写っています。城の壁は白く、
窓枠は黒く塗られています。城の上部には、
2つの金色の像が乗っています。像は、
ライオンの頭と人間の胴体で構成されて
います。城の周囲には、緑の木々が
茂っています。

ここまで見てきて、大きな誤りがあるものがいくつかある。この辺りはLLMの学習情報が少ないからなのだろうと思う。
特定分野向けに絞って、学習したデータを用意したらいい精度でできるかもしれない。ただしそうすれば汎用で使うことができなくなる。
と考えると、かなり大規模なデータを持つLLMで使う必要があり、PCのスペックが高くなるだろう。

まとめ

  • Gemma3はVLM機能を搭載し、写真から説明文を生成できる
  • ただし判断能力はそれほど高くない。それはベースのトークン数のせいなのかもしれない

 

PR

   
著者プロフィール
irvine
 ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
 仕事でUS,UK,SGなどの国とかかわる。
 自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
 新しい機器、サービスに興味あり。年数回のレビュー(自腹購入、ご依頼)と発表されて興味があるものの新製品机上レビューをやっている。
 2022年はJAPANNEXT様のアンバサダーを務めました。
 
 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です