OpenAI社が公開しているChatGPTにおいて、画像生成AI「DALL・E 3」による画像生成が可能になりました。本記事では、DALL・E 3の概要や、ChatGPTからDALL・E 3を使用する際の活用のポイントについて解説します。
DALL・E 3はOpenAIによる最新の画像生成AIモデルで、前バージョンよりもプロンプトの解釈能力が向上しています。
DALL・E(ダリ)とは、OpenAIが開発し2021年1月に発表された画像生成AIモデルのことです。2023年9月に次世代モデルのDALL・E 3が発表され、10月から有料プランであるChatGPT PlusとEnterpriseのユーザーに提供されています。
DALL・E3は、生成したい画像の特徴を記した文章(プロンプト)を入力すると、文章をベースにAIモデルが画像を生成するという機能を持ちます。前バージョンであるDALL・E 2よりもプロンプトを解釈する能力が向上しており、同じプロンプトでも、より内容に準拠した画像を生成できるようになりました。
従来の画像生成AIは、プロンプトの単語や説明を無視する傾向があり、ユーザー側で適切なプロンプトの書き方を習得する必要がありました。DALL・E 3は、キャプションと呼ばれる説明文が充実した画像データをAIモデルのトレーニングに使用することでプロンプトを解釈する能力を向上させています。
さらに、高品質な画像とテキストのデータセットを使用し、最新の言語モデルであるGPT-4を活用して正確なキャプションを生成することで、訓練データの質が向上しました。その結果DALL・E 2やStable Diffusion XLと比較して、よりプロンプトに準拠した画像が生成できることが確認されています。
ChatGPTの有料プランの会員であれば、DALL・E 3を利用できます。なお、以前はDALL・E 3による画像生成やBingによるブラウジング機能、Advanced Data Analysisによる解析機能が別々になっていましたが、2023年11月のアップデートにより同時に使えるようになりました。
画像を生成させるためのプロンプトに、人や物の特徴、背景、画風、画像サイズなどを細かく指定することで、より想定に近い画像を生成できます。生成した画像をクリックすると拡大画面が表示されます。画像はダウンロード可能で、生成に使用したプロンプトの確認も可能です。
DALL・E 3で生成した画像は、ChatGPTと会話をしながら修正できます。また、生成した画像は商用利用も可能です。
生成した画像が想定と異なる場合は、その画像に対する修正を指示することもできます。生成した画像をベースに、画風を変えたり、背景を変えたり、文字を加えたりなど、ChatGPTと会話しながら修正を指示しましょう。ただし、文章で指示する必要があるため、意図しない修正をされてしまう場合もあるのでご注意ください。
また、DALL・E 3から生成される画像のサイズは、基本は固定となっていますが、ChatGPTに指示することで変更ができます。希望する画像サイズの縦横のピクセル数を指定すると、Advanced Data Analysisの機能を用いてサイズ変更をするPythonスクリプトを作成し、実行します。サイズ変更した画像はそのままダウンロードも可能です。
DALL・E 3で生成した画像は転載、販売、商品化が可能で、OpenAIの許可を得る必要はないとされています。ただし、OpenAIのコンテンツポリシーと利用規約には従うように求められているので、一度確認しておくとよいでしょう。
コンテンツポリシーでは、暴力的な画像や成人向けの画像を生成しないこと、AIを使用した作品であることを開示して他者を誤解させないことなどを求めています。なお、DALL・E 3では、暴力や成人向けなどのコンテンツを生成する能力を制限する措置があらかじめ講じられています。
ChatGPTの有料プランの会員向けにDALL・E 3の機能が加わり、テキストによる指示で画像生成が可能になりました。AIモデルの進化により、前バージョンよりもプロンプトに準拠した画像が生成できるようになっています。DALL・E 3で生成した画像は商用利用が可能ですが、不適切なコンテンツは生成しないよう十分注意しましょう。