IrvineのもっとPC自作日記
HP Directplus -HP公式オンラインストア-
ウイルスバスター公式トレンドマイクロ・オンラインショップ
毎日の生活に役立つ!面白い!『こんな便利な商品があったのか!!』特集
本ページはプロモーションが含まれています。
  
 

【VLM】久しぶりに画像説明AIのLlava-CALM2を試してみた

 

スポンサーリンク

 
【VLM】久しぶりに画像説明AIのLlava-CALM2を試してみた
 

LLMを開発するサイバーエージェントが、大規模視覚言語モデルを開発し画像の説明をするLLMを開発したのは昨年の夏。
いろいろな写真で試したが説明内容はいまいちだった。バージョンアップがされてないので同じもので別の写真を試してみた。
テキスト生成AIについてのまとめはこちら。

  
  

VLMとは

VLMとは大規模視覚言語モデルのことで、LLMとはまた違うものだ。学習した情報に基づいて、画像に描かれているものが何なのかを説明してくれるAIを作ることができる。

サイバーエージェントでは75億パラメータのVLMを開発して公開した。商用利用が可能。(Apache 2.0ライセンス)

インストール方法は以前の記事を参照。

サイバーエージェントではLLMも公開している。以前の記事はこちら。

PC内のファイルを読み込ませる

プログラムは以前の記事のものを流用し、PC内の写真のパスのみ書き換えている。
個々の写真については以下の様になった。
動画にもまとめているので参照を。

写真 説明/評価
背高モニタアーム 設置の様子

背高モニタアーム 設置の様子

画像には、3つのモニターと、それらの上に設置された1つのモニターが映っています。
左側のモニターには、黒い背景に 白い文字で「Windows 11」と
表示されています。中央のモニターには、同じく黒い背景に白い文字で「Windows 11」と
表示されています。右側のモニターには、黒い背景に白い文字で「Windows 11」と
表示されています。また、その下には、黒い背景に白い文字で「Windows 11」と
表示されたモニターが設置されています。
△一部誤り Windows11なんて書いてないし
moto razr50 ultra

moto razr50 ultra 出典:モトローラ

画像には、2台のスマートフォンが写っています。左側のスマートフォンは、前面が黒く、
背面がオレンジ色です。
右側のスマートフォンは、前面が黒く、背面がピンク色です。2台とも、画面が点灯しており、
時刻は11:35です。
左側のスマートフォンの画面には、バッテリー残量が35%であることが示されています。
△一部誤り
Xiaomi 14T Pro レンズ

Xiaomi 14T Pro レンズ 出典:シャオミ

画像には、背面に3つのカメラレンズが縦に並んだスマートフォンが写っています。カメラレンズは、
いずれも円形で、レンズの周囲は黒く縁取られています
また、カメラレンズの下には、フラッシュライトのようなものが2つ並んでいます
スマートフ ォン本体は、背面が銀色で、側面は黒色です。
△細かいところが誤っている
JIsaku8 SSD交換 TEAM SP

JIsaku8 SSD交換 TEAM SP

画像には、2つの黒いSSD(ソリッドステートドライブ)が写っています。左側のSSDは、
Team Groupのロゴが入った「CX2 」というモデルで、右側のSSDは、Samsungのロゴが入った
Samsung 860 EVO」というモデルです。
どちらも、黒いプラスチック製の ケースに収められています。CX2のケースには、
緑色の文字で「Team Group」と書かれています。Samsung 860 EVOのケースには、
オレンジ色の文字で「Samsung」と書かれています。
×誤り
右はSilicon Power社のSSD。
ロジクール M575 3年レビュー

ロジクール M575 3年レビュー

画像には、2つのコンピューターマウスが写っています。左のマウスは、灰色と青の2色で、
右のマウスは黒とオレンジの2色です。左のマウスは、右のマウスよりも少し小さく、右のマウスは、
左のマウスよりも少し大きいです。左のマウスには、スクロールホイールが付いていますが、
右のマウスには、スクロールホイールが付いていません。
△一部誤り
大阪 太陽の塔

大阪 太陽の塔

画像には、白い像と青空が写っています。像は、上半身が人間、
下半身が鳥のような姿をしています
。像の頭部は、太陽 のような形をしています。
像の台座には、赤い模様が描かれています。
像の周囲には、木々や建物が見えます。
△一部誤り 上半身、下半身ってどこで区切るのだろう

他数枚あるが、動画を参照。

試した結果

全部で11枚試して、2枚は誤りがなかった。他の9枚は一部や細かい点が誤っている。大きく外しているものはなかったが、そこを書かなければ正解といえるのにな、と思うものが多かった。

まとめ

今回はバージョンアップされているわけではないので、昨年試したものと同じレベルの判定だ。精度が上がったバージョンアップ版が出てほしいが、自分のグラボのメモリ12GBでは厳しい。安くなれば16GB版を買いたいところだが、根本的な解決はクラウドのリソースしかないのかな。

PR

   
著者プロフィール
irvine
 ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
 仕事でUS,UK,SGなどの国とかかわる。
 自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
 新しい機器、サービスに興味あり。年数回のレビュー(自腹購入、ご依頼)と発表されて興味があるものの新製品机上レビューをやっている。
 2022年はJAPANNEXT様のアンバサダーを務めました。
 
 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です