lywebsite

新聞

新聞 活動

清華 & 哈佛團隊推出 LangSplat:更準确描述 3D 場景、比 LERF 快(kuài) 199 倍

清華大(dà)學與哈佛大(dà)學攜手合作(zuò),共同研發的全新AI系統LangSplat近日(rì)引起了科(kē)技界的矚目。這個名爲LangSplat的系統在三維空間内能夠高效、準确地搜索開放(fàng)式詞彙,标志着對3D語言場的一次重大(dà)突破。


LangSplat是首個基于3D語言場方法的系統,采用了3D Gaussians(3D高斯函數)的革新技術(shù)。更特别的是,它引入了SAM和CLIP這兩個先進的模型,使其在開放(fàng)式詞彙的3D對象定位和語義分(fēn)割任務上超越了目前最先進的方法。與此同時,LangSplat在速度上更是超越了LERF,快(kuài)了整整199倍。


0119 ai 1.png


早在2023年(nián)3月,加州大(dà)學伯克利分(fēn)校(xiào)的研究人(rén)員(yuán)展示了語言嵌入式輻射場(LERF),這是一種将語言嵌入到NeRF(神經輻射場)中的技術(shù)。LERF的優勢在于無需專門(mén)培訓即可(kě)在三維環境中準确識别物體(tǐ),但(dàn)它存在實時搜索的不足,搜索結果準确率也較低。爲了解決LERF的瓶頸,LangSplat采用了3D高斯函數構建3D語言場,避免了NeRF所需的繁瑣渲染過程。在分(fēn)辨率爲1440 x 1080像素的情況下,LangSplat的速度比LERF快(kuài)了整整199倍。


研究團隊通過展示多個案例,生(shēng)動展示了LangSplat的強大(dà)之處。在一個茶杯裡(lǐ)泡茶葉的場景中,相(xiàng)比LERF标記兩個杯子,LangSplat标記的是杯子中的液體(tǐ)。而在另一個例子中,它可(kě)以準确标記一碗拉面湯中的單個配料。


0119 ai.png


LangSplat采用了Meta的 分(fēn)段任意模型 (Segment Anything Model)來(lái)學習分(fēn)層語義。這一過程中,圖像被分(fēn)解成邊界清晰的不同物體(tǐ)掩碼,而物體(tǐ)則被進一步分(fēn)解成整體(tǐ)、部分(fēn)和子部分(fēn)。随後,CLIP對學習到的遮罩進行處理(lǐ),嵌入模型會訓練一個自(zì)動編碼器,最終用于訓練LangSplat的3D高斯函數。


研究人(rén)員(yuán)使用LERF和3D OVS兩個數據集對LangSplat進行了測試,結果顯示,LangSplat在總體(tǐ)準确率上表現出色,分(fēn)别達到了84.3%和93.4%,而LERF則分(fēn)别爲73.6%和86.8%。


LangSplat的誕生(shēng)标志着在3D語言場領域的一次重大(dà)突破,爲未來(lái)的AI系統發展指明了方向。其高效、準确的搜索能力和廣泛的應用場景讓人(rén)對人(rén)工(gōng)智能的未來(lái)充滿期待。在科(kē)技不斷演進的時代,LangSplat的出現将無疑推動AI技術(shù)在三維環境中的發展,爲人(rén)類創造更加智能、便捷的未來(lái)。


© 熱(rè)控科(kē)技 版權所有  隐私政策