視覺基礎模型 | Hong Kong Centre for Logistics Robotics

透過深度整合大規模視覺語言模型（VLMs），基於視覺語言模型（VLMs）的具身智能系統實現了語義感知、推理及具身決策能力。它獲得理解高層語義指令的能力——例如「整理廚房」或「照顧長者」——並自主將其分解為具體子任務，同時規劃完整的執行路徑。
透過多模態感知與智能建模的無縫融合，它達到類似人類的任務理解及環境意識，從而在家居服務、物流及先進製造等場景中，實現穩定高效的任務執行。