新聞 › 清華 & 哈佛團隊推出 LangSplat：更準确描述 3D 場景、比 LERF 快(kuài) 199 倍

清華 & 哈佛團隊推出 LangSplat：更準确描述 3D 場景、比 LERF 快(kuài) 199 倍

清華大(dà)學與哈佛大(dà)學攜手合作(zuò)，共同研發的全新AI系統LangSplat近日(rì)引起了科(kē)技界的矚目。這個名爲LangSplat的系統在三維空間内能夠高效、準确地搜索開放(fàng)式詞彙，标志着對3D語言場的一次重大(dà)突破。

LangSplat是首個基于3D語言場方法的系統，采用了3D Gaussians（3D高斯函數）的革新技術(shù)。更特别的是，它引入了SAM和CLIP這兩個先進的模型，使其在開放(fàng)式詞彙的3D對象定位和語義分(fēn)割任務上超越了目前最先進的方法。與此同時，LangSplat在速度上更是超越了LERF，快(kuài)了整整199倍。

0119 ai 1.png

早在2023年(nián)3月，加州大(dà)學伯克利分(fēn)校(xiào)的研究人(rén)員(yuán)展示了語言嵌入式輻射場（LERF），這是一種将語言嵌入到NeRF（神經輻射場）中的技術(shù)。LERF的優勢在于無需專門(mén)培訓即可(kě)在三維環境中準确識别物體(tǐ)，但(dàn)它存在實時搜索的不足，搜索結果準确率也較低。爲了解決LERF的瓶頸，LangSplat采用了3D高斯函數構建3D語言場，避免了NeRF所需的繁瑣渲染過程。在分(fēn)辨率爲1440 x 1080像素的情況下，LangSplat的速度比LERF快(kuài)了整整199倍。

研究團隊通過展示多個案例，生(shēng)動展示了LangSplat的強大(dà)之處。在一個茶杯裡(lǐ)泡茶葉的場景中，相(xiàng)比LERF标記兩個杯子，LangSplat标記的是杯子中的液體(tǐ)。而在另一個例子中，它可(kě)以準确标記一碗拉面湯中的單個配料。

0119 ai.png

LangSplat采用了Meta的分(fēn)段任意模型（Segment Anything Model）來(lái)學習分(fēn)層語義。這一過程中，圖像被分(fēn)解成邊界清晰的不同物體(tǐ)掩碼，而物體(tǐ)則被進一步分(fēn)解成整體(tǐ)、部分(fēn)和子部分(fēn)。随後，CLIP對學習到的遮罩進行處理(lǐ)，嵌入模型會訓練一個自(zì)動編碼器，最終用于訓練LangSplat的3D高斯函數。

研究人(rén)員(yuán)使用LERF和3D OVS兩個數據集對LangSplat進行了測試，結果顯示，LangSplat在總體(tǐ)準确率上表現出色，分(fēn)别達到了84.3%和93.4%，而LERF則分(fēn)别爲73.6%和86.8%。

LangSplat的誕生(shēng)标志着在3D語言場領域的一次重大(dà)突破，爲未來(lái)的AI系統發展指明了方向。其高效、準确的搜索能力和廣泛的應用場景讓人(rén)對人(rén)工(gōng)智能的未來(lái)充滿期待。在科(kē)技不斷演進的時代，LangSplat的出現将無疑推動AI技術(shù)在三維環境中的發展，爲人(rén)類創造更加智能、便捷的未來(lái)。

新聞

清華 & 哈佛團隊推出 LangSplat：更準确描述 3D 場景、比 LERF 快(kuài) 199 倍

産品

解決方案

技術(shù)

新聞

關于我們