ついに実用化！未来の画像生成AI、GPT-4oの力で「ありえないもの」が簡単に形になる時代が到来

オープンAIは文脈や対象への理解度を大幅に向上させた新しい画像生成AIモデルを発表した。従来の画像生成モデルは「絵」のみを学習していたが、今回のモデルではGPT-4o言語モデルを組み合わせることで、目的に沿った画像をより簡単に生成できるようになると期待されている。

25日（現地時間）、オープンAIは新たな画像生成AI「ChatGPT画像生成（ChatGPT-4o画像生成）」を公開した。このモデルは従来のDALL·E（ダリー）に代わる、ChatGPTの基本となる画像生成モデルだ。オープンAIの関係者は「GPT-4oの言語知識と画像理解を融合したモデル」であり、「従来のモデルが革新的だったとすれば、このモデルは実用的だ」と強調した。

ChatGPT画像生成は、絵のみを学習した従来のDALL·Eなどの画像生成モデルとは根本的に異なる。描く対象を理解し、学習していない「創造的な」要求にも対応できるのが特徴だ。例えば、DALL·Eは数字や文字を歪めて描くが、これは数字や文字を「絵」として解釈し、まるで幼児が模倣するように生成してしまうためだ。

また、従来のモデルでは「自転車に乗った人」は上手く描けるが、「人に乗った自転車」を描くのは難しい。これは事前に学習した画像にそのような構図が少ないためだ。従来のAI画像生成モデルが人の手をうまく描けない理由もここにある。AIは人体の構造を正確に理解しておらず、腕の先に指がどのように配置されるべきかといった点を認識しているにすぎない。

ChatGPT画像生成は画像生成機能に言語モデルを組み合わせることで、これらの問題を解決した。言語モデルが要求を理解した上で画像を生成するため、より正確な結果が得られる。「三角形の車輪の自転車」も容易に描け、「マッコウクジラを描いて」という要求に対しては、種を特定した上で特徴を捉えた画像を生成できる。文字や数字の理解度も大幅に向上した。科学実験を説明するインフォグラフィックも、原理を理解した上で簡単に生成できる。オープンAIの関係者は「高強度のストレステストでも、人の指を正確に描けるようになった」と述べた。

ChatGPT画像生成は無料ユーザーにも提供される予定だ。また、動画AI「Sora（ソラ）」にも新たなモデルの言語理解技術が適用されることになる。これはサービス競争力の向上を目指す取り組みの一環だ。現在、Google Geminiは「Imagen」画像生成モデルを提供しており、中国のDeepSeekも「Janus（ヤヌス）」という名の画像生成モデルをすでにリリースしている。

ついに実用化！未来の画像生成AI、GPT-4oの力で「ありえないもの」が簡単に形になる時代が到来

コメントを書く 返事をキャンセル

会社紹介

会社情報

コメントを書く返事をキャンセル