スポンサーリンク
LLMを開発するサイバーエージェントが、大規模視覚言語モデルを開発し画像の説明をするLLMを開発したのは昨年の夏。
いろいろな写真で試したが説明内容はいまいちだった。バージョンアップがされてないので同じもので別の写真を試してみた。
テキスト生成AIについてのまとめはこちら。
VLMとは大規模視覚言語モデルのことで、LLMとはまた違うものだ。学習した情報に基づいて、画像に描かれているものが何なのかを説明してくれるAIを作ることができる。
サイバーエージェントでは75億パラメータのVLMを開発して公開した。商用利用が可能。(Apache 2.0ライセンス)
インストール方法は以前の記事を参照。
サイバーエージェントではLLMも公開している。以前の記事はこちら。
プログラムは以前の記事のものを流用し、PC内の写真のパスのみ書き換えている。
個々の写真については以下の様になった。
動画にもまとめているので参照を。
写真 | 説明/評価 |
---|---|
画像には、3つのモニターと、それらの上に設置された1つのモニターが映っています。 左側のモニターには、黒い背景に 白い文字で「Windows 11」と 表示されています。中央のモニターには、同じく黒い背景に白い文字で「Windows 11」と 表示されています。右側のモニターには、黒い背景に白い文字で「Windows 11」と 表示されています。また、その下には、黒い背景に白い文字で「Windows 11」と 表示されたモニターが設置されています。 |
|
△一部誤り Windows11なんて書いてないし | |
画像には、2台のスマートフォンが写っています。左側のスマートフォンは、前面が黒く、 背面がオレンジ色です。 右側のスマートフォンは、前面が黒く、背面がピンク色です。2台とも、画面が点灯しており、 時刻は11:35です。 左側のスマートフォンの画面には、バッテリー残量が35%であることが示されています。 |
|
△一部誤り | |
画像には、背面に3つのカメラレンズが縦に並んだスマートフォンが写っています。カメラレンズは、 いずれも円形で、レンズの周囲は黒く縁取られています。 また、カメラレンズの下には、フラッシュライトのようなものが2つ並んでいます。 スマートフ ォン本体は、背面が銀色で、側面は黒色です。 |
|
△細かいところが誤っている | |
画像には、2つの黒いSSD(ソリッドステートドライブ)が写っています。左側のSSDは、 Team Groupのロゴが入った「CX2 」というモデルで、右側のSSDは、Samsungのロゴが入った 「Samsung 860 EVO」というモデルです。 どちらも、黒いプラスチック製の ケースに収められています。CX2のケースには、 緑色の文字で「Team Group」と書かれています。Samsung 860 EVOのケースには、 オレンジ色の文字で「Samsung」と書かれています。 |
|
×誤り 右はSilicon Power社のSSD。 |
|
画像には、2つのコンピューターマウスが写っています。左のマウスは、灰色と青の2色で、 右のマウスは黒とオレンジの2色です。左のマウスは、右のマウスよりも少し小さく、右のマウスは、 左のマウスよりも少し大きいです。左のマウスには、スクロールホイールが付いていますが、 右のマウスには、スクロールホイールが付いていません。 |
|
△一部誤り | |
画像には、白い像と青空が写っています。像は、上半身が人間、 下半身が鳥のような姿をしています。像の頭部は、太陽 のような形をしています。 像の台座には、赤い模様が描かれています。 像の周囲には、木々や建物が見えます。 |
|
△一部誤り 上半身、下半身ってどこで区切るのだろう |
他数枚あるが、動画を参照。
全部で11枚試して、2枚は誤りがなかった。他の9枚は一部や細かい点が誤っている。大きく外しているものはなかったが、そこを書かなければ正解といえるのにな、と思うものが多かった。
今回はバージョンアップされているわけではないので、昨年試したものと同じレベルの判定だ。精度が上がったバージョンアップ版が出てほしいが、自分のグラボのメモリ12GBでは厳しい。安くなれば16GB版を買いたいところだが、根本的な解決はクラウドのリソースしかないのかな。
PR