文 | 极智GeeTech
世事的起伏本来是波浪式的,人们要是能够趁着高潮一往直前,一定可以功成名就;要是不能把握时机,就要终身蹭蹬,一事无成。——莎士比亚
近期,德意志银行发布了一份引起全球关注的报告,标题很刺眼——《China Eats the World》,直译过来就是《中国正鲸吞世界》,听起来像是危言耸听,但内容确实分量感十足。
这份报告直指中国的迅猛崛起,称中国如今不仅是全球制造业的中心,还在重重包围中的高科技领域杀出了血路,甚至威胁到了西方的技术霸权。报告中还用了一个历史比喻——“斯普特尼克时刻”。
“斯普特尼克时刻”是美国在冷战期间提出的概念。美苏冷战时期的1957年,苏联领先美国,将第一颗人造卫星“斯普特尼克1号”送入地球轨道。苏联这一科学技术领域的优势,给美国带来巨大冲击。
德意志银行用了这个词,形容中国如今的技术突破,尤其是在人工智能、制造业、新能源等领域的表现,其认为2025年正成为中国超越世界其他国家的一年。以DeepSeek为开端,越来越多的事实已表明,中国科技企业正在以精益的工程化思维,完成另一种东方叙事。
AI精益思维与工程化能力
在《技术的本质》中,布莱恩·阿瑟(Brian Arthur)曾表示:新技术并不是无中生有地被“发明”出来的,我看到的技术的例子都是从先前已有的技术中被创造(被建构、被聚集、被集成)而来的。
2023年,一款名为Monica的AI助手以浏览器插件的形式在欧洲和拉美地区迅速走红。这款集合了GPT-4、Claude、Bard、Gemini等主流模型于一体的智能应用,能够让用户在浏览网页的同时即时调用AI功能,从AI对话、翻译到绘图、写作无所不包,特别是其语言模型支持22种语言,用户可以通过语音输入进行实时翻译,验证了“工具全家桶”模式的用户需求。
3月6日,Monica.im发布全球首个通用AI Agent产品Manus,效果超越OpenAI的Deep Research。与现有AI助手不同,Manus能够独立思考、规划并执行复杂任务,直接交付完整成果,展现出较好的通用性和执行能力。
Monica创始人肖弘在Manus发布的前几个小时,在即刻平台上发文“高潮来临”:很难现在就判定Manus的诞生就是AGI的里程碑,但它很有可能将让Agent时代真的进入“高潮时刻”。
从技术角度看,Manus本质上是基于基座大模型的系统性工程优化,通过构建多智能体协作框架,将任务划分为“规划-执行-验证”三个阶段,由不同AI代理接力协作,模拟人类处理复杂任务的流程。同时,针对不同应用场景设计了多层次环境适配机制,最终形成面向复杂任务的高度工程化整合方案。
在交互体验方面,Manus的核心能力体现在对用户需求的洞察,它最后交付的不仅仅是文字,而是借助代码生成了各类契合任务需求的结果,涵盖了文档、网页、图标甚至是视频。由此,用户能够更加直观地获取到自己想要的结果,还能在过程中对最终的交付结果进行验证。
事实上,Manus并非在底层技术上有重大突破,而是通过工程化能力挤压出了模型可以完成的最复杂任务。
首先,通过深度的后训练(Post-Training)带来令人惊艳的“魔法感”。后训练,就是在预训练模型的基础上,通过针对特定任务的数据集和监督信号,对模型进行微调,使其更好地适应下游任务。
后训练过程通常包括微调、对齐和评估三个阶段。
在微调阶段,模型通过针对特定任务的数据集进行监督学习,调整模型参数以适应任务需求。
在对齐阶段,模型通过人类偏好数据等手段进行训练,以使其输出更符合人类价值观和道德标准。
在评估阶段,则需要对模型进行全面评估,确保其在实际应用中表现出良好的性能。
通过后训练,模型能够学习到更多与任务相关的知识,更好地理解人类意图,生成更符合人类期望的回答,从而在实际应用中表现出更佳的性能。
其次,借助Monica在模型聚合领域的积累,构建了一个远超单一模型调用的多模型协同网络。最后,它将现有技术进行整合,展现出了较强的系统集成能力。
Manus通过预设工作流和标准化场景(如生成报告、翻译合同、简历筛选),将语音、图像、文本等多模态交互与行业工具链进行整合,并通过优化工具调用顺序和参数配置,全面提升工作效率和产出效果。
例如,在生成市场报告时,能自动调用数据分析工具和设计平台完成全流程,形成“端到端”解决方案。这种工程化封装能力使其在标准化任务中表现优于通用大模型。
无论是DeepSeek还是Manus,都体现出了“Less is More”的技术理念。相比大模型,它们用更少的结构、更少的资源,调动更强的智能,强调通过优质数据、强大模型和灵活架构实现能力的自然涌现。
这轮中国AI技术崛起,本质上是一场大规模系统级工程创新的胜利。它证明在既有技术框架下,通过工程优化与路径创新,完全可能实现局部超越。
Manus没有追求自研大模型,而是通过多模型动态调用(GPT-4、Claude3、Gemini)提升综合能力,也就是常说的“套壳”,这成为其最受争议的焦点。
其实“套壳”本身并不可怕,可以视为一种整合和优化资源的方式,关键在于是否能够解决用户的实际问题。用户更在乎的是产品体验,有没有迅速且准确地获得所需的内容,而不是底层用了什么,如何调用工具。
不过,互联网时代的系统与应用“两层思维”在AI时代已经失效,模型和应用两者的能力已经相互融合不分彼此,模型即应用。
做AI应用最终还是在向用户交付一项大模型能力,无论使用的是提示工程、强化学习、工作流、Agent,还是别的“套壳”手段,底层都还是那台贯通一切的“大脑”。
比如OpenAI的Agent走的就完全是模型训练的路径。Deep Research突出特点便在于端到端训练带来的自主能力进化,基于微调的OpenAI o3版本,底层训练赋予了Deep Research很多分析能力。
长期来看,在模型之上进行强化学习调整,可能才是构建强大Agent的关键。
至于Manus是否是个好产品,仍需等待市场的验证。无论褒赞和争议如何,Manus让虚掩着的AI应用大门正慢慢敞开。
Agent离临门一脚还差多远?
人类与AI交互大致可分为三种模式:嵌入模式(Embedding)、副驾驶模式(Copilot)、智能体模式(Agent)。
嵌入模式下,AI大模型在特定环节被调用。用户通过语言与AI互动,用提示词设定目标,AI则协助完成。这种模式让AI成为执行命令的工具,而人类则是决策者和指挥者。普通用户可以用它来创作小说、音乐、3D内容等。
副驾驶模式则更加智能化,人类与AI成为合作伙伴,每个环节都能与AI大模型交互。AI介入工作的各个阶段,从提供建议到协助完成。
例如在软件开发中,AI可以为程序员编写代码、检测错误、优化性能。人类与AI在此过程中相互协作,AI更像是知识渊博的伙伴,而非单纯工具。
2021年,微软在GitHub首次引入了Copilot概念。2023年5月,微软在大模型加持下,Copilot迎来全面升级,并提出“Copilot是一种全新的工作方式”的理念。
智能体模式的AI参与度更高,任务被交给AI大模型,模型自行计划、分解并自动执行。人类设定目标并提供必要资源,如计算能力,然后AI独立承担大部分工作,最后人类监督进程并评估最终结果。
在这种模式下,AI展现智能体的互动性、自主性和适应性特征,近乎独立的行动者,而人类则更多扮演监督者和评估者的角色。
谈到AI Agent,很多人都认为它是大模型的产物,毕竟大部分人接触Agent是从基于GPT-4的AutoGPT、BabyGPT、GPT-Engineer等开源Agent程序开始的。
但了解AI Agent的人应该知道,Agent概念并不是当今的产物,而是人工智能不断进化的结果。
2023年6月,OpenAI应用研究主管Lilian Weng发表了《LLM Powered Autonomous Agents》一文,其中她提出了一个公式:智能体=大语言模型+规划+记忆+工具使用。
其中,大模型是Agent的大脑, 属于“中枢”模型,要求有以下3种能力:规划——就如同一位棋手,能将复杂局面分解为一系列精妙的子步骤;工具使用——宛如工匠,懂得从工具箱中选取最合适的工具并熟练调用 ;记忆——既有短期记忆存储即时信息,又有长期记忆沉淀持久知识 。
20世纪50年代,阿兰•图灵(Alan Turing)把“高度智能有机体”概念扩展到了人工实体,并提出了著名的图灵测试。这个测试是人工智能的基石,旨在探索机器是否可以显示与人类相当的智能行为。
在早期阶段,研究人员开始探讨如何让计算机模拟人类的思维和学习过程。这个阶段的Agent主要是基于规则的专家系统,它们可以在特定领域内解决问题,但缺乏自主学习和适应能力。
随着机器学习的出现,Agent开始尝试通过数据驱动的方式来学习和改进。主要依赖于监督学习和无监督学习算法,如决策树、神经网络和聚类分析等。这些算法使得Agent能够在大量数据中学习和提取有用的信息,从而提高性能。
深度学习技术为Agent的发展带来了革命性的变革。深度学习算法,如卷积神经网络(CNN)和循环神经网络(RNN),使得Agent能够在复杂的数据中自动学习特征和规律,从而实现更高层次的认知和决策能力。这个阶段的Agent已经在图像识别、语音识别、自然语言处理等领域取得了显著的成果。
强化学习是一种让Agent通过与环境的交互来学习最优策略的方法。近年来,强化学习在Agent领域取得了重要突破,使得Agent能够在复杂的环境中实现自主学习和决策,为未来的Agent发展提供了新的可能性。
从以上发展历程看,AI Agent经历了从基于规则的专家系统,到数据驱动的机器学习方法,再到如今的深度学习和强化学习。
不少人认为,Agent爆发需要两个必要条件,一个是多模态能力,另一个是慢思考能力,在2024年都取得了突破性进展。因此,2025年被行业认为是AI至关重要的发展节点,Agent有望成为最重要的产品形态,引领AI从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。
全面爆发还要迈过几道槛?
虽然AI Agent爆发曙光已现,距离真正的爆发仍有不少要克服的障碍。
一个关键的挑战是,缺少一个能够支撑整个生态的操作系统。初创公司/dev/agents计划为AI Agent开发一个类似于安卓操作系统的通用平台,试图解决目前Agent碎片化的局面。
其它挑战还包括如何实现低延迟、带视觉理解的实时反馈;如何构建个性化的记忆系统;如何在虚拟与物理环境都具备执行能力等等。只有当AI Agent从“工具”变成“工具使用者”时,真正的杀手级应用才会出现。
在Agent的构建上,仍有许多悬而未决的技术难题,例如大模型幻觉、长时记忆的前后一致性问题、以及增强多模态的理解能力。
AI Agent依赖大模型“黑盒”,本身就存在不可预测性。至今在解决一些逻辑、推理等核心问题上,Agent的能力还偏弱。因此,Agent各模块之间如何配合、多个Agent如何交互、人类与Agent如何互动等方面,Agent技术尚处于早期阶段。
接入Agent后,所有需要处理的业务场景,都会转化成需要底层大模型理解的数据,从而产生高昂的推理成本。斯坦福的虚拟小镇框架开源后,每个Agent一天就需要消耗20美金的Token数,比用人成本还要高。因此,如何控制高昂的调用成本,是摆在AI Agent面前的一大难题。
现阶段一个最关键的制约因素,还是数据质量、数据规模、应用场景不足,AI模型、AI训练数据集、AI场景落地部署,都远远不够。
以AI Agent机器人为例,由于缺乏高质量的真实数据,机器人就无从进行训练。通过互联网数据,机器人的感知已经出现了相当强的泛化,能够更好地理解物理世界。
不少AI企业通过真实数据和仿真数据结合的方式,将任务过程中的数据“喂”给大模型。然而,仿真数据还是不够真实,Agent在模拟世界能成功,但导入到现实世界就会有一定的失败率。
所以,要结合现实世界实时动态信息,使AI系统不仅能够理解信息,还要形成对物理现象的理解与智能决策能力,从而使得Agent能够灵活应对现实世界的复杂情况。
导入现实世界动态数据将是大模型、AI Agent产生高阶思维的必然路径。一方面,基于互联网上大量文本和图像数据训练的生成式AI模型(GPT、Llama等)在生成人类语言和抽象概念方面已经基本满足需求,但是受其生成规则的限制,对于现实世界的理解有限,因此会出现不符合现实世界规律的“幻觉”。
另一方面,机器无法感知和察觉它们周围的世界,需要借助AI网络构建和训练各类Agent,并与现实世界进行实时交互并适应各种环境,从而实现对现实世界的洞察和理解。
比如交通领域,AI网络将交通流量、气象条件、道路状况、城市环境等实时数据纳入模型训练,通过整合车辆、道路、云端等多方数据,可以进行实时分析并为精准决策提供支持,帮助驾驶员和自动驾驶车辆即时优化决策。同时,通过MogoMind等大模型对摄像头视频流进行实时处理,可以为交通管理部门提供精准的交通流量分析预测与动态优化、事故预警、交通信号优化等服务。
当前,AI Agent还远未达到数据飞轮的启动时刻,达不到自动驾驶般的普及度,而真实数据的成本极高,需要花长时间积累。数据的匮乏,不仅会影响模型的准确性和稳定性,还制约了其在真实场景中的广泛应用的可靠性。
Manus出现之前,业内便已经纷纷预测,2025年将成为AI Agent商业化应用元年。DeepSeek爆火之后,其背后的V3、R1等多款AI大模型带来的工程优化和能力提升,快速引爆了市场热情。在此基础上,谁能基于这些模型能力打造出下一个超级App、超级Agent,成为行业关注的焦点。
斯蒂芬·茨威格在《人类群星闪耀时》中写道:“充满戏剧性和命运攸关的时刻在个人的一生中和历史的进程中都是难得的;这种时刻往往只发生在某一天、某一小时甚至某一分钟,但它们的决定性影响却跨越时间。”
从DeepSeek到Manus,就像AI初春里第一朵盛开的小花,当我们看到这朵小花的时候,判断其是不是昙花一现,是没有意义的;判断它是不是整个春天里最漂亮的花,也没有意义。过早断言并无必要,执着预测也非关键。
真正的远见是:怀揣信念,默默耕耘,静待破土的力量。当春天来了,而耕耘者早已备好沃土,让每项AI技术都能找到适合的土壤,这或许就是智能生长的真正序幕。
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com