以前、GPT-Image 1.0 リリース時に作成した「Colab 上で画像生成・編集を行うノートブック」を、GPT-Image 1.5 に対応させました。
以前の記事:GPT-Image-1生成画像をGoogle ColabでざくざくEDIT&量産
Colab は検証用サンドボックスとして便利
私は API の挙動確認向けに Colab を利用していますが、「ちょっと試したい」「ローカル環境を用意するのが面倒」という場合にも Colab は相性が良いです。
特に Google Drive とセットで使うことで、簡単な量産と検証結果のファイル管理をまとめられます。
あのときのプロンプトは何だったか、あのプロンプトでどんな結果が出たか、といった履歴も、画像とプロンプトをまとめて Drive に入れておけば検索や画像プレビューで追いやすくなります。
GPT-Image 1.5 対応の変更点
以前、GPT-Image 1.0 リリース時に作成した「Colab 上で画像生成・編集を行うノートブック」を、GPT-Image 1.5 に対応させました。
バージョン1.5ということで仕様変更は特になく、モデル名の追加変更ですぐ動きました。
合わせてinput_fidelity の追加などいくつか修正を入れています。
input_fidelity は、入力画像のスタイルや特徴(特に顔など)をどの程度厳密に維持するかを制御するパラメータです。
API ドキュメント上では GPT-Image 1.0 のみに対応しているような書き方もありますが、公式 Cookbook では GPT-Image 1.5 でも積極的に利用されているため、通常は指定して使っていく前提でよいと思います。
ノートブック紹介
シンプルな画像生成用ノートブックはこちらです。
example_gpt-image-1.5_create01.ipynb
こちらは、1 枚の参照画像に対して 12 個の個別プロンプトを使い、まとめて編集生成するノートブックです。
example_gpt-image-1.5_edit01.ipynb

GPT-Image 1.5 ではマルチターン生成がまだサポートされていないため、編集時は毎回リファレンス画像を送る実装になっています。
今回のサンプルはシンプルなエフェクト中心なので、「人物をどこまで維持できるか」という観点では 1.0 でも十分でしたが、仕上がりのクオリティが違いますね。
特にアニメ調イラストで差が分かりやすい印象です。

1.0 も細かくプロンプトを調整すれば高いクオリティは生成されましたが、GPT-Image 1.5 はよりシンプルなプロンプトでも安定して質感の高い結果が得やすくなっています。
プロンプト例
アニメシーンオーバーレイ
「この画像をアニメの静止画のようにスタイル化してください。大胆な線画、セルシェーディング、背景のスピードライン。」
(1.0 のプロンプトには「下部に日本語のテキストや字幕を加えてください。」と追記していたため、謎テキストが入っているバージョンもあります)
Colab で動かすための準備
OpenAI APIキーの設定
まず、OpenAI のウェブサイトで API キーを取得します。
API keys
取得した API キーを、Google Colab のユーザーデータに OPENAI_API_KEY という名前で保存します。

Google Drive のマウント
ノートブックを実行すると、Google Drive が自動的にマウントされます。
生成された画像は AI_Generated_Images というフォルダに保存されます。
フォルダが存在しない場合は自動的に作成されます。
フォルダ名は変更可能なので、詳細はノートブック内の設定を参照してください。
まとめ
- 以前よりシンプルなプロンプトでも、質感の高い画像が安定して得やすくなった
- 人物やスタイルの維持には input_fidelity が以前より有効に効いている(気がする)
- 生成速度については、体感では大きく速くなった印象はないかな。。(計測上も誤差のような差)


コメント