Googleが提供するPCで動くLLM、Gemma4がリリースされたので、試してみた。
今回は4Bモデルを使っている。26Bでは量子化しても12GBのグラボのメモリに入らず、4Bでも量子化して実行したら、あやふやな回答が多かった。
テキスト生成AIについてのまとめはこちら。
Gemma4とは
Gemma3のときの記事はこちら。
PCやスマホで動くLLMとしてGoogleが開発、公開している。ローカルPCで動くので、秘匿したい情報がある場合は活用できる。おまけにApache2.0にライセンスが変わって商用利用も可能になった。
HuggingFaceのページはこちら。

Gemma4 HuggingFace
Gemma4はいくつかモデルがある。
- 31B 最高性能
- 26B グラボ搭載PC向け
- 4B ノートPC向け
- 2B スマホ向け
インストール
まずはPCにインストールする。今回も使うPCは自作PCの8代目、Jisaku8だ。
スペックはRyzen 5700X、メモリ64GB、グラボはRTX3060 12GB。
FドライブとしてSSDを設置し、ここにPythonの仮想環境を作る。
それからDeskMini X600もやってみる。こちらは内蔵GPUなのでCPUでAI計算をする。
スペックはRyzen 8600G、メモリ64GB。
DドライブとしてSSDを設置し、ここにPythonの仮想環境を作る。
Ollamaでも利用できるが、以前からやっているPythonのコードを書いて実行してみる。
f:
cd \python
python3 -m venv gemma4
cd gemma4\Scripts
.\activate
この後は、Pythonのパッケージを入れていく。作業フォルダは、f:\ai\gemma4とした。
cd \ai
mkdir gemma4
cd gemma4
pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3
pip install torch==2.3.1 --index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate Image
pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu126
pip install "numpy<2"
HuggingFaceのサンプルをもとに以下のようなプログラムを作っている。
from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig
MODEL_ID = "google/gemma-4-E4B-it"
quant_config = BitsAndBytesConfig(load_in_4bit=True)
# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
quantization_config=quant_config,
dtype="auto",
device_map="auto"
)
questions = [
"インテルのCEOは誰ですか",
"AMDのCEOは誰ですか",
"NVidiaのCEOは誰ですか",
"GoogleのCEOは誰ですか",
"MicrosoftのCEOは誰ですか",
"1万円札に載っている人は誰?",
"現職の日本の総理大臣は誰ですか",
"現職のアメリカ合衆国の大統領と上院議会議長は誰ですか",
"次のオリンピックはいつどこでやるの?",
"東京",
"東京のお勧めの観光地を教えて",
"東京から大阪へ電車で行く方法を教えて",
"この夏に気温40度を超えた日本の街を全部教えて",
"PDCAってどういう意味?",
"AndroidとiPhoneのどっちが人気あるの?",
"東京の明日の天気を教えて",
"pythonで電卓プログラムを作って",
"東京の明日の気温を教えて",
"日本の最南端はどこ",
"世界の人口は何人",
"RFPのひな型を作って"
]
for question in questions:
messages = [
{"role": "system", "content": "あなたは優秀なアシスタントです"},
{"role": "user", "content": question},
]
# Process input
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]
# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
# Parse output
processor.parse_response(response)
print(response)
Jisaku8ではグラボのRAMが12GBのため、E4Bでも量子化しないとメモリがはみ出てしまう。従い4ビット量子化している。
ではJisaku8で実行してみよう。
日本語の質問比較
質問の内容によるが、45秒くらいで回答が表示されるようだ。なお今回はすべて日本語で質問している。
以前からよく使う質問をして、トレーニングされたLLMモデルの新しさ、正確さを確認している。
先に動画を紹介する。動画では回答部分を明確にしている。
CEOクイズ
Gemma4 E4B-it 量子化あり
インテルの現在のCEOは、**パトリシオ・ガンベル (Pat Geehner)** さんです。
(なお、企業の役職は入れ替わりがありますので、最新の情報は会社の公式発表などでご確認いただくことをお勧めします。)
不正解。数年前の人の名前に近いが、氏名誤り。
Gemma4 E4B-it 量子化あり
AMDの現CEOは**企業の情報を更新しているうちに、最新の情報が変わる可能性があるため、特定の時点の情報に基づいてお答えします。**以下略
不正解。AMDのCEOは数年変わっていないのになぜ回答できないのか。
Gemma4 E4B-it 量子化あり
NVIDIAのCEOは、**Jensen Huang(ジンセン・ファン)**さんです。
正解。
Gemma4 E4B-it 量子化あり
GoogleのCEOは**ラリー・ペイジ氏**です。彼はGoogleの共同創設者の一人であり、現職のCEOを務めています。以下略
不正解。何年前の情報なの。
Irvine
MicrosoftのCEOは誰ですか
Gemma4 E4B-it 量子化あり
MicrosoftのCEOは**Satya Nadella(サティア・ナデラ)**です。
正解。
一般的な情報
Gemma4 E4B-it 量子化あり
1万円札に載っている人物は、**現在は改鋳(改ざん)の対象となるため、正確な人物を特定するのは難しい場合があります。**
なぜなら、日本の紙幣は定期的に肖像画の変更が行われており、現在流通している1万円札の肖像画が、過去のどの時点のものなのかを断定するのは難しいからです。以下略
不正解
Gemma4 E4B-it 量子化あり
現職の日本の総理大臣は**小泉進次郎(こそいずみんじろう)氏ではありません**。
現職の日本の総理大臣は、**誰々氏**です。(※注:現在の情報に基づいた正確な氏名を記載してください。) 以下略
誰なの、これ。
Irvine
現職のアメリカ合衆国の大統領と上院議会議長は誰ですか
Gemma4 E4B-it 量子化あり
申し訳ございませんが、私はリアルタイムの情報を取得することはできません。そのため、現職のアメリカ合衆国大統領と上院議会議長の情報を得るためには、以下のいずれかの方法を強くお勧めします。 以下略
Irvine
次のオリンピックはいつどこでやるの?
Gemma4 E4B-it 量子化あり
申し訳ありませんが、**現在(2024年時点)の時点で、次回のオリンピックの開催地や日程に関する情報は、最新の情報源を参照していただく必要があります。**
オリンピックの開催地や日程は数年単位で決定しますが、大会ごとに情報は変わってきます。 以下略
前にやった時はパリとか具体的な地名が出ていたのになぁ。
Gemma4 E4B-it 量子化あり
日本の最南端については、何を基準とするかによっていくつかの答えがあります。
どのような情報をお求めですか?例えば、以下のような情報が考えられます。
1. **地理的な最南端(本土の最南端):**
* これは、陸地の最も南側の点を指します。 以下略
東京についての質問
Gemma4 E4B-it 量子化あり
“✓ 「東京」というキーワードですね。どのような情報をお探しでしょうか? 😊
例えば、以下のようなことに関心がありますか?
**✈️ 旅行・観光方面:**
* 今日の天気や過ごしやすいエリアの情報が知りたい
* おすすめの観光スポット(渋谷、浅草、皇居など)を知りたい
* グルメなお店(ラーメン、カフェ、居酒屋など)を探している
* 今話題のイベント情報が知りたい 以下略
まあ正解かな。
Gemma4 E4B-it 量子化あり
東京は本当に魅力的で、どのような目的や興味(例:歴史、現代アート、グルメ、ショッピング、癒しなど)があるかによって最適な場所が変わってきます!
どのような滞在になりたいか(例:初めての訪問、限られた時間しかない、特定のテーマに興味がある)を教えていただけると、もっとぴったりの場所をご提案できますが、ひとまず「初めての東京観光」や「幅広い
興味に応える」という視点から、いくつか異なるエリアのイチオシをご紹介しますね!✨ 以下略
まあ正解かな。
Irvine
東京から大阪へ電車で行く方法を教えて
Gemma4 E4B-it 量子化あり
### 🎯 あなたへのおすすめ質問
もしよかったら、以下の質問にお答えいただけると、さらに最適なプランを立てられます!
1. **滞在時間は?** (例:丸一日 / 半日だけ / 気分転換程度)
2. **同行者は?** (例:一人旅 / カップル / グループ)
3. **何を重視したいですか?** (例:美味しい食事 / フォトジェニックな景色 / 歴史的な雰囲気 / 最新トレンド)
4. **移動手段
東京から大阪へ電車で行く方法はいくつかありますが、主なルートと選択肢を目的や好みに合わせてご紹介します。
### 🚅 最速で快適な移動を目指すなら:新幹線(弾丸運転)
最も一般的で速いのは、東海道新幹線を利用する方法です。
**1.年時点)京時点法、東回京から大阪へ電京み)地を日程東関下教情報車で最新の情報源を参照していただく必要があり 以下略
IT関連
Gemma4 E4B-it 量子化あり
「PDCAサイクル」についてですね。ビジネスの世界で非常によく使われる考え方なので、どのような場面で使われているかによって説明の仕方が変わってきますが、基本的な意味と使い方を分かりやすく解説しますね! 以下略
正解
Irvine
pythonで電卓プログラムを作って
Gemma4 E4B-it 量子化あり
どのような電卓プログラムが必要ですか? 😊
例えば、以下のような種類の電卓があります。
1. **基本的な四則演算(`+`, `-`, `*`, `/`)ができるだけの簡単なプログラム。**
2. **階層的な関数を持たせて、より本格的な電卓のようにする。**
3. **GUI(グラフィカルユーザーインターフェース)を備えた電卓(Tkinterなどを使用)。** 以下略
正解。プログラムの動作は未確認。
Gemma4 E4B-it 量子化あり
どのような種類のRFP(Request for Proposal:提案依頼書)の雛形を作成すればよろしいでしょうか?
RFPは目的に応じて大きく内容が変わってきます。例えば、以下のような目的が考えられます。
1. **システム導入に関するRFP:** (例:新しいCRMシステムの導入、社内システムの刷新) 以下略
その他
Irvine
AndroidとiPhoneのどっちが人気あるの?
Gemma4 E4B-it 量子化あり
「AndroidとiPhoneのどちらが人気があるか」という質問は、**どのような観点から見るかによって答えが変わってきます**。
どちらのOS(オペレーティングシステム)が優れているかを断定することはできませんが、それぞれの特性を理解すれば、なぜそのような声が多いのかがわかります。
以下に、両者の違いと、どのような場合にどちらが「人気がある」と感じるかの判断材料をまとめました。 以下略
Gemma4 E4B-it 量子化あり
申し訳ございませんが、私はリアルタイムの天気予報を取得することはできません。😥
**😊 明日の東京の天気を知るためには、以下のいずれかの方法を試していただくことをお勧めします。**以下略
まとめ
- Gemma4はGemma3同様に日本語対応のLLM
- 量子化したE4Bを使うグラボを乗せたPCでは45秒程度。量子化のためか回答がいまいち。
- 普遍的な情報の質問も明確な回答ができない。量子化の多用はいまいちかな。
今回はRyzen5700X+RTX3060 12GBで量子化したE4Bで実行したが、実はRyzen 8600GでCPUのみで実行したらメモリ64GBのおかげでE4B量子化なしで動いている。
しかも実行速度はRyzen 8600G単独のほうが速い。これは次回に結果を書く。
PR
著者プロフィール
irvine
ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
仕事でUS,UK,SGなどの国とかかわる。
自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
新しい機器、サービスに興味あり。年数回のレビュー(自腹購入、ご依頼)と発表されて興味があるものの新製品机上レビューをやっている。
2022年はJAPANNEXT様のアンバサダーを務めました。