在幾年前ChatGPT問世後,許多品牌在人工智慧領域迅速發展。蘋果在這方面的工作一直以來都相對低調。然而,這並不意味著蘋果在人工智慧領域沒有取得任何進展。蘋果最近推出了一個名為 MGIE 的新開源人工智慧模型。這個人工智慧模型可以根據自然語言指令來編輯圖像。

MGIE 的全名是 MLLM-Guided Image Editing,它使用了一個多模式大型語言模型(MLLM)來解釋使用者指令並執行像素級操作。 MGIE 能夠理解使用者發出的自然語言命令,可以進行類似Photoshop的修改、全局照片優化和局部編輯等操作。

蘋果與加利福尼亞大學聖塔芭芭拉分校的研究人員合作,將發表與 MGIE 相關的研究成果。這些成果將在2024年的國際學習表示研討會(ICLR)上發表。該研討會是全球人工智慧研究領域的頂級會議之一。

什麼是 MLLM ?

要正確理解 MGIE ,我們必須先討論 MLLM,因為MGIE使用了MLLM。MLLM是一種強大的人工智慧模型,可以同時處理文本和圖像,從而增強基於指令的圖像編輯能力。MLLM在跨模態理解和視覺知覺響應生成方面表現出色。然而,它在圖像編輯任務中尚未被廣泛應用。

MGIE以兩種方式將MLLM整合到圖像編輯過程中。首先,它使用MLLM從使用者輸入中獲得表達豐富的指令。這些指令簡潔明確,為編輯過程提供清晰的指導。

MGIE Demo 1

例如,當輸入”讓天空更藍”時,MGIE可以生成指令”將天空區域的飽和度增加20%”。

其次,它使用MLLM生成視覺想像,即所需編輯的潛在表示。這種表示捕捉了編輯的本質,可以用來指導像素級操作。MGIE採用了一種新穎的端到端訓練方案,共同優化指令生成、視覺想像和圖像編輯模塊。

MGIE 的特點

MGIE可以應對各種編輯情況,從簡單的色彩調整到複雜的物體操作。該模型還可以根據用戶的喜好進行全局和局部編輯。MGIE的一些特點和功能包括:

  • 表達豐富的指令式編輯:MGIE能夠生成簡潔明確的指令,有效地指導編輯過程。這不僅提高了編輯質量,還增強了整體用戶體驗。
  • Photoshop風格的編輯:MGIE可以執行常見的Photoshop風格編輯,如裁剪、調整大小、旋轉、翻轉和添加濾鏡。該模型還可以應用更高級的編輯,如更改背景、添加或移除物體以及混合圖像。
  • 全局照片優化:MGIE可以優化照片的整體質量,如亮度、對比度、銳度和色彩平衡。該模型還可以應用藝術效果,如素描、繪畫和諷刺畫。
  • 局部編輯:MGIE可以編輯圖像中的特定區域或物體,如臉部、眼睛、頭髮、衣服和配飾。該模型還可以修改這些區域或物體的特性,如形狀、大小、顏色、紋理和風格。

MGIE Demo 2

MGIE 是 GitHub 上的開源項目。用戶可以在這裡找到代碼、數據和預訓練模型。該項目還提供了一個演示筆記本,展示如何使用MGIE完成各種編輯任務。