Gpt-image-1.5を Google Colab でさわってみた(ドキュメント日本語化)

OpenAI

Gpt-image-1.5リリース後多くの方がレビューして、Nanobanana Pro は超えられていないという声もありますが、背景除去など Nanobanana にはない利点もあるので、APIから触ってみました。
思い立ったときにすぐ試せるように、OpenAI の公式サンプルとプロンプトガイドを日本語化し、Google Colab で動かせるようにしました。お試しするには Colab はやはり便利ですね。

ざっくりまとめ

  • 背景透明の PNG を出力できるのがやっぱり便利
    • (Nanobanana では現時点でできない)
  • ドキュメント上はマルチターンが示唆されているが、gpt-image 1.5 では未実装。
  • 画像サイズが最大1536×1024と大きくはない。
  • Colab から Google ドライブ連携まで組んでおくと試行錯誤しやすい

試した環境

気づいたこと色々

マルチターン対応は未実装

ドキュメント上はマルチターン対応が示唆されているものの、現状は毎回画像を送り直しているように見えます。
そのため、Image Token 料金がかさんでしまう可能性があります。

Multi-turn image generation
With the Responses API, you can build multi-turn conversations involving image generation either by providing image generation calls outputs within context (you can also just use the image ID), or by using the 
previous_response_id
parameter. This makes it easy to iterate on images across multiple turns—refining prompts, applying new instructions, and evolving the visual output as the conversation progresses.

Please note that right now, only gpt-image-1 and gpt-image-1-mini are supported in the Responses API. We're working on support for gpt-image-1.5.


複数ターンにわたる画像生成Responses API を使用すると、画像生成を伴う複数ターンの会話を構築できます。これには、コンテキスト内で画像生成呼び出しの出力を提供する方法(画像 ID のみを使用することも可能)または previous_response_id パラメータを使用する方法があります。これにより、複数のターンにわたって画像を反復処理することが容易になります。プロンプトの改良、新しい指示の適用、会話の進行に伴う視覚的出力の進化などが可能です。

現在、Responses API でサポートされているのは gpt-image-1 と gpt-image-1-mini のみです。gpt-image-1.5 のサポートについては現在開発中です。

日本語とフォント

カタカナ入力ギリギリ表現できますが、漢字はまだ難しいですね。
(公式でもその様にアナウンスされていますが、今回の売りがインフォグラフィックでは・・)

クオリティをHighにするとカタカナもデザインフォントになりました。
上:High , 下 : Low

試していないこと

今回はサンプルをできるだけいじらない方向で試したので、input_fidelity(参照画像への忠実度)のパラメータはまだ触っていません。
デフォルトは Low ですが、サンプルの範囲ではクオリティに問題は見られませんでした。

高解像度には対応できていないなど Nanobanana を超える感じは全くしませんが、
透明背景をいきなり出力できるのは強いです。用途が広がりそうです。

引き続き色々試していきたいと思います。

なお、ベンチマークではちょっと都合の良い数字ばかりが並びます・・。これも今後試したいけど、すぐに新しいモデルが出そう・・

Introducing OpenAI’s GPT-image-1.5 in Microsoft Foundry | Microsoft Community Hub
Developers building with visual AI can often run into the same frustrations: images that drift from the prompt, inconsistent object placement, text that...

まとめ

  • gpt-image 1.5 は、透明背景 PNG 出力や背景除去など、Nanobanana とは違う強みがある
  • Google Colab と Google ドライブ連携で、思い立ったときにすぐ試せる環境を用意しやすい
  • 現状はマルチターンや高解像度、日本語フォント周りに課題があり、もう一歩という印象
  • 次は input_fidelity などのパラメータや Responses API の対応状況を追いながら検証していきたいですね。

コメント

タイトルとURLをコピーしました