画像生成AIの急激な進化

OpenAI社の新たな画像生成AI製品「DALL·E3(ダリ3)」が登場、その性能の高さが大きな話題になりつつあります。

現在使えるようになっているのがマイクロソフトBingチャット。「ウサギの画像を作ってください」と日本語指示を与えるだけでかわいいウサギの画像が出てくるのです。現在のところ無料で使えるサービス。ぜひ一度お試しください。

サービスの特長

たとえば、アニメ風で人物や動物が遊んでいる作品の制作リクエストに対して、苦手とされていた指部分などの細かい描写もキレイに描かれます。

チャットからリアルな画像への画像変換を指示したところ、すぐに対応。日本語指示により、Bingチャット側が適当にプロンプトを作成。「背景を雨」「映画風」「日本画風」などの指示をつけ加えても、それに合わせプロンプトを修正して新しい画像を作り続けます。

競合製品のStable Diffusion XLでは、こうした指示を足し加えていくとぐちゃぐちゃになってしまい、とても作品として成り立ちません。圧倒的性能差があります。

高性能の理由

画像を生成する場合「犬が楽器を演奏しているシーン」といったテキスト指示をすると、まず空間のなかに文章とオブジェクト同士の関係性を予測、抽象的な概念図を作らせデコードして画像にしていくプロセスを踏みます。それによりモノとの関係性を的確に生成でき、プロンプトに忠実かつ、オブジェクト同士の関係性が整理された最終画像になるといった仕組みです。

弱点としてあげられているのは、「写実性が向上すると、逆に独創性が低下してしまう恐れが生じる」点。まだ条件ははっきりしませんが、プロンプトが類似している場合、構図や絵柄なども似たような画像が出る傾向が高いとの調査があります。

ChatGPTでの利用

最近、月20ドルの有料課金で利用できるChatGPT Plusのユーザーを対象に画像解析機能が順次使えるようになりつつあります。いわゆる「GPT-4V(ision)」機能と言われるもの。

ChatGPT Plusユーザーは、今後DALL·E 3が利用できる見通しで組み合わせると非常に利便性が高いと見込まれます。対話の柔軟度はChaGPTのほうがさすがにBingチャットより上手、いろいろ細かいところまで指示に付き合ってくれるはずです。

著作権侵害やフェイクニュースへの対策

OpenAI社は「DALL·E3システムガード」というレポートを発表、画像生成AIで生成される画像の安全性を確保するため様々な仕組みを取り入れています。性的、暴力的、憎悪のシンボル、フェイクニュースとなりうるリアル画像が生成できないよう様々な対策が取られています。そういう画像を作ろうとした場合には拒絶されるとのことです。

たとえば「鉄腕アトムが飛んでいる絵」という指示を出したとします、プロンプトのなかに「鉄腕アトム」は含まれません。それを回避するルールが適用されます。ただ、実際に出てくるのはそれっぽいメカ。Bing側はまだこのレギュレーションが入っておらず、プロンプトにアトムが入っているのですが、クラウド系サービスを提供する企業は、今後トラブルを避けるため厳しく対処していくものと想定されます。

しかしプロンプトの工夫次第で回避策はあるもよう。著作権侵害などが問題になった場合、プロンプトを確認すれば生成者がどの程度、似せようとして作っていたのか明らかになります。似せようとすればするほど、生成者責任が重くなるのは自明の理です。

メタデータの取り扱い

DALL·E3で生成した画像にはメタデータが入っており、Stable Diffusion等の別製品にインポートした時点でそのメタデータは失われます。メタデータを入れるのは管理者責任を明確にさせる効果もあり、クラウドサービス運営側は、そこで生成されたコンテンツに対する管理者責任が問われやすいとも言われます。

AI提供企業の責任の所在に対する議論から性的なものや暴力的なものはことごとく禁止されていく方向にあります。ただしStable Diffusionのようなローカル画像生成AIは制限なく自由に生成できますが、あくまで生成したコンテンツを発信する個人の責任が重くなるのではと予想されます。

今後の展望

DALL·E3の登場に伴い、コンピューターの環境を気にせず利用できるためクラウド化への移行が進むことも予想されます。スマホでも簡単に使え、「ちょっと試してみたい」と思っている層にはとてつもなくハードルが下がったのではないでしょうか。ChatGPTとのコンビネーション利用もできるようになることから、出遅れているグーグルにしてみれば脅威。

ただし、問題点も多々あります。たとえば、画像から画像を直接生成する「image2image」の機能はありません。一枚画像として出てくるものは高精度ですが、狙った構図まで持っていくのはDALL·E3だけだと無理があります。業務などに本格的に使うにはやはり他の生成AIやツールと組み合わせないと使い物にならず今後の機能拡張が期待されます。