影象處理

Florence-2-base-ft:先進的視覺基礎模型,支援多種視覺和視覺-語言任務

Florence-2是由微軟開發的高階視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示,執行諸如影象描述、目標偵測和分割等任務。它利用FLD-5B資料集,包含54億個註釋,覆蓋1.26億張影象,精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色,證明是一個有競爭力的視覺基礎模型。

Florence-2-large-ft:先進的視覺基礎模型,支援多種視覺和視覺-語言任務

Florence-2-large-ft是由微軟開發的高階視覺基礎模型,使用基於提示的方法來處理廣泛的視覺和視覺-語言任務。該模型能夠透過簡單的文本提示執行諸如影象描述、目標偵測和分割等任務。它利用FLD-5B資料集,包含54億個註釋,覆蓋1.26億張影象,實作多工學習。模型的序列到序列架構使其在零樣本和微調設定中均表現出色,證明其為有競爭力的視覺基礎模型。

IllumiNeRF:3D重光照技術,無需逆向渲染

IllumiNeRF是一種3D重光照技術,它透過使用一系列在未知光照條件下拍攝的物體影象,恢復3D表示,以便在目標照明下從新視角渲染。該技術避免了基於逆向渲染的傳統方法,這些方法通常涉及透過可微分的蒙特卡洛渲染進行最佳化,這不僅脆弱而且計算成本高昂。

Unique3D:從單張圖片生成高質量3D網格模型

Unique3D是由清華大學團隊開發的一項技術,能夠從單張圖片中生成高保真度的紋理3D網格模型。這項技術在影象處理和3D建模領網域具有重要意義,它使得使用者能夠快速將2D影象轉化為3D模型,為遊戲開發、動畫製作、虛擬實境等領網域提供了強大的技術支援。

返回頂端