当前,大模型技术正通过架构革新与多模态融合,重构空间智能发展的底层逻辑,推动其从实验室走向产业化应用。传统的人工智能方法关注处理结构化数据和遵循预定义的规则。然而,空间智能的出现就是为了处理物理世界因多样性、复杂性导致的更为细致的空间推理。通过空间智能,机器可以用类人的方式与周边环境进行3D立体互动,并进行解读;无可争议的是深度学习模型已在各种计算机视觉任务中有了很多出众的表现,但其面临的挑战,例如,怎样集成多种数据类型并同时执行复杂任务就显得尤为突出。
我们邀请到特斯联国际总裁、特斯联首席科学家、AI Lab负责人邵岭博士,一起就空间智能及衍生话题,诸如多模态数据融合等进行了探讨。

特斯联国际总裁、特斯联首席科学家、AI Lab负责人邵岭博士
邵岭博士在人工智能领域有着数十年的前沿探索经验。在他看来,真正的智慧在多样性与分布性中繁衍,而特斯联的AIoT基因则使其在多模态数据的采集沉淀、软硬件一体化、场景理解、生态系统构建等层面积累了一定的先发优势,最终作用于空间智能模型的鲁棒性和泛化性。
以下为精选对话内容:
问题1:空间智能到底是什么?与World Model(世界模型)什么关系?
邵岭:空间智能可看作是计算机视觉的高级呈现及延伸,它需要机器具有能够感知、理解、推理并与三维物理世界交互的能力。空间智能不仅仅是简单的物体识别,更重要的是理解物体之间的空间关系、环境的上下文以及这些信息对交互行为的影响。
空间智能是继语言智能(LLMs)后人工智能发展的下一个关键步骤,它能够弥合“感知”和“行动”之间的差距。当前的人工智能在感知方面表现出色,但往往难以将感知转化为现实世界中的有效行动。空间智能则能够成为克服这一局限性的关键。
另一方面,World Model(世界模型)是对环境和物理世界的一种内部表征,它能够预测环境未来的状态并支持规划。世界模型能够学习现实世界的物理规律、空间属性和因果关系。空间智能和World Model(世界模型)并不是同一概念,但它们之间是紧密相关的。
空间智能提供的强大的空间感知和理解能力,是构建准确、全面的World Model(世界模型)的必要前提。人工智能系统需要通过空间智能来感知环境、识别物体及其关系,并将这些信息整合到其内部的世界表征中;World Model通过预测行为后果和规划,使得人工智能能够将感知到的空间信息转化为有效的行动。
问题2:空间智能的主流实现路径有哪些?
邵岭:实现空间智能并非只有单一路径,除了备受关注的LWM(大世界模型),还存在多种不同的、互补的技术路径。这些技术路径在核心技术和解决问题的思路上有所不同,它们在特定场景下具有各自不同的优势。例如,基于显式知识与推理的技术路线,侧重于结构化知识和逻辑推理;基于多模态融合的方案,强调整合不同感官信息以提升感知能力;基于具身智能的探索与学习方案,关注通过与环境互动自主获取知识。随着技术的发展,未来会出现多种技术的融合方法,例如将知识图谱融入大模型以增强其推理能力,或利用具身智能进行更有效的数据收集。
特斯联目前采用空间数据知识、领域模型工具,AI智能体以及空间感知模型技术相融合的方案,利用构建的知识库和系统工具,增强模型的空间感知能力。探索这些多样化的技术路径,能够更全面地推动空间智能的发展,使其在各种复杂和动态的环境中发挥更强大的作用。
问题3:特斯联的空间智能方案优势在哪里?
邵岭:结合我们自身的业务场景及行业经验优势,特斯联采用的是一种融合的技术方案——利用积累的行业数据自主构建空间感知模型,并将行业空间数据、领域模型和场景经验以系统工具及知识库的形式与空间感知模型相结合,充分发挥我们在行业经验和场景理解方面的优势,增强空间感知模型的感知、预测和因果推理能力。
在具体实践中,AIoT基础设施为空间智能提供感知能力,也为空间智能增强提供了数据支持;领域模型学习了行业数据知识以及数据之间的内在关系,为空间智能提供识别和理解能力支持;基于空间关系数据、领域模型、及空间智能技术构建出强大的空间智能体将为具体的应用场景提供通用的智能底座。
问题4:从大语言模型到空间智能,还需要哪些技术能力跃迁?
邵岭:空间智能的实现依赖于多种算法以及包括计算机视觉、机器学习和机器人学等领域的技术。比如,空间智能的感知能力依赖于计算机视觉和深度学习,这是空间智能的基础;空间理解方面,为了理解三维结构,AI模型需要处理三维数据,依赖于三维表示学习来学习物体的几何和拓扑结构;在空间智能的推理方面,为了理解图像中的语义和空间上下文,并进行空间推理,需要利用视觉-语言模型(VLMs),强化学习(RL)技术;空间智能的执行能力则依赖于具身智能和环境模拟,在模拟的三维环境中训练AI智能体,使其能够学习导航和与环境交互……

总之,空间智能是人工智能和三维世界交互的能力,它通过感知、导航、操作、推理和环境生成等多种形式展现,并依赖于计算机视觉、深度学习、三维表示学习、多模态学习等多种算法和技术来实现。在这些技术中,有的技术已经发展多年相对成熟,有的学术和产业界才刚刚开展研究,还需要更多时间共同推进和突破。
特斯联在计算机视觉和深度学习、视觉-语言模型、强化学习、3D仿真、环境模拟等技术领域有多年的研发经验和技术积累,相关技术已应用于多个项目、解决方案和产品中。此外,依赖在行业数据理解、数据处理及多模态领域多年的研发经验,我们正在研发AIoT领域的多模态空间智能大模型,融合多种端侧设备采集的多源异构数据,具有强大的空间感知、环境理解和因果推理能力,能够直接从传感器数据生成控制指令,从而实现更智能、更高效的场景决策和执行方案。
问题5:多模态数据的融合、对齐被认为是空间智能发展面临的主要瓶颈之一,特斯联如何应对这一挑战?
邵岭:恰如吴志强院士所提到的,“智能的未来,不属于一个中心。它属于多重大脑、多类代理、多元视角的协同网络。”如同在自然界一般,真正的智慧在多样性与分布性中繁衍。AIoT基因则使特斯联在多模态数据的采集沉淀、软硬件一体化、场景理解、生态系统构建等层面积累了一定的先发优势。
广泛部署的AIoT端侧设备,为获取海量、多样化、细粒度的时空数据提供了有力支持,能有效减轻空间智能发展中的数据不足问题。一方面,部署在不同位置和空间的AIoT端侧设备能够捕捉到细致、实时、全方位的环境信息;另一方面,覆盖多个区域和不同应用场景的设备得以收集到更具多样性的数据,这种多样性有助于空间智能模型的鲁棒性和泛化性。目前,基于端侧AIoT产品,特斯联已有能力采集、分析文本、视觉(图像、视频)、声音、环境(温度、湿度、光照、气压等)、位置(GIS坐标)、生物、电信号等数十种模态的数据。
同时,特斯联也在利用动态自适应时序同步技术实现不同模态数据之间的对齐——将所有的模态数据统一到同一个语义空间,结合大模型的预训练和强化学习技术,打造与用户场景对齐的多模态融合空间智能大模型。
特斯联国际的下一步研发计划,以满足中东和海外市场需求为目标,基于前期在行业市场中积累的数据、经验和技术,打造系列专用的AI智能体,进一步增强中国产品和解决方案在海外市场中的价值和竞争力——这包括研发面向移动终端(智能可穿戴设备、机器人等)的智能体HALI,以及应用于智慧建筑、智慧园区和智慧能源的空间智能技术等。
短期(1年)内,研发用于移动终端的AI智能体(HALI),为智能可穿戴设备和机器人等产品构建类人思考、长期记忆、个性化等核心能力,进一步提高这些产品的交互能力和智能水平,为个人和企业用户带来更高价值。
长期(3-5年)内,从专用的AI智能体出发,逐步向通用智能体方向发展。探索高维空间智能、自主学习、及多智能体等核心技术,实现智能体对复杂行为和意图的高级空间感知、理解和预测能力,并将这些技术能力应用于广泛场景,进一步扩大中国科技在全球产业链中的优势。