昨天夜里telegram 裸舞,深夜惊雷。
一个新团队斯须发了一个首款通用型的神情:Manus。演示在此,我东谈主胜仗看麻了。
您咫尺设置暂不支持播放
看完我的第一嗅觉,卧槽,东谈主类又要一败涂地了。
这即是 OpenAI 的 DeepResearch 和 Claude 的 Computer Use 的究极集结体,致使,它还能我方写代码,胜仗 Coding Agent。
这是什么怪物啊!
我料猜想这一天会来,仅仅没猜想,来得如斯之早。
Manus 在 GAIA 的评分上,也相当离谱。
仍是越过 OpenAI 的 DeepResearch 的了,成为 GAIA 评分第一。
可能好多东谈主不知谈 GAIA 是个啥,我浮浅说一下。
GAIA 是一个面向通用 AI 助手材干的基准评测体系,由 Meta AI、Hugging Face 等相干团队于 2023 年苛刻。
有一篇相当盛名的论文:
内部有 466 个尽心遐想的问题。
传统的测试一般齐是数学或者一些专科常识问答、编程等等,然而 GAIA 测试,内部好多齐是想法浮浅,然而需要多智商责罚的骨子问题。
其均分为三个级别,Lv.1、Lv.2、Lv.3,难度纪律递加。
想通过 GAIA 的测试,一般需要收集检索材干、器用调用材干、编程材干、文献处理材干等等。
在 2023 年的工夫,东谈主类一般能达到 90% 的得手率,而那工夫的最强 AI GPT4,在第一级才凑合达到 15%。
再看这张图,你就知谈,有多强了。
说真话,我咫尺还满足为 ChatGPT 每个月齐氪 200 刀,主要即是 o1 Pro 和
DeepResearch,这两玩意有一说一,在我作念一些相干和需要强推理任务的工夫,还口角常好用的。
而 Manus 这波,把 DeepResearch 干碎了,要知谈,它之前仍是是最强了。
当今有个很难顶的问题是封测中,是以只须邀请码的用户才能体验到。
是以,我也动用了我的东谈主脉,花了十分钟的时辰,有关到了 Manus 团队的东谈主,相当侥幸地取得了邀请码。
不外,即使是莫得拿到邀请码的用户,也可以去他们官网,概况看一下他们的 Use Case,每一个,齐相当有真理。
而要是你有了邀请码,正常登录进去以后,即是一个大大的界面:
诚然齐是一个对话框,然而 Manus 的材干还不太一样,他不是阿谁你苛刻个问题,AI 一会就会胜仗给你陈说 Chatbot。
而是当你苛刻问题之后,它会凭据你的问题和条目,来拆罢黜务,进行十分复杂的任务绸缪和现实。
况且会在云霄自动运行,你可以胜仗退出去,等运行收场,会奉告你。
比如之前的那篇 GAIA 的论文,我想把 PDF 酿成一个能拿出去讲的 PPT,我把这个条目提给 Manus 的工夫。
它会先把我的需求拆解。
我是这样说的:
1. 我但愿你写一段 Python 表率,用 OCR 把这篇论文的 PDF 信息索取出来。
2. 将 PDF 内部的信息回归成 PPT 大纲。
美女车模3. 按照小米发布会的作风,作念一份给宽泛东谈主科普用的 PPT。
4. 给我 PPT 的下载文献。
它会运行花小数时辰来阐发。
然后,在右边的窗口上,运行一个诬捏机,准备运行现实操作。
在诬捏机开启之后,会第一时辰,列一份 To Do List。
然后,就会运行现实第一个任务,装置 python 库。
完成的神情,会一齐在右边的预览窗口打 x。
他们用了一个相当道理的交互形势,即是及时加进程同步。
右边的界面就像 PPT 一样,不断的下一页下一页,让你及时的看到,现时这个 Manus 正在作念什么,你能看到它的每小数主义,每一个行为,这个掌控感确实太强了。
即使要等很久,你看着它在小数小数现实,这个嗅觉也确实很爽。
而右下角的任务智商也可以张开,相当直不雅地告诉你,大智商进行到哪一个阶段了。
交互作念得极棒。
我这个 case,只需要等概况几分钟以后,一个 PPT 就出来了。
望望 PPT:
信息是没问题的,即是这好意思感 = = 照旧欠缺了小数,然而在信息的排版和内容质地上,确实高到爆炸。
这个其实并不是极端能展示它的材干,我再展示另一个,我也曾试图让整个 Agent 尝试的例子,帮我整剃头票。
我通常要出差,是以有一堆东倒西歪的发票需要让公司报销的,然而公司的大总管呢,制定了一个 SOP,即是发票你不可胜仗打包给她,这样太乱,是以需要作念成一个 excel 的模板,这样她好对账。
即是这样的,然而你知谈,我要每个月把我的十几张发票,齐处理成表格,确实很贫寒。
是以,当我抱着碰荣幸的立场,把这个任务交给 Manus 的工夫,我胆寒了。
因为,它得手了。
我那时就浑身发麻了,着实太过劲了。你们懂那种,浑身触电的嗅觉嘛!
我给专家过一下历程。
最运行,我的 Prompt 超等浮浅。
就这样简浮浅单的一句话。
它在想考完以后,处理成了 8 步任务。
然后,解压压缩包,装置 OCR 依赖,索取发票,整理成表格等等等等。
我什么也没干,它就我方这样跑着。
9 分钟以后,请示我任务完成了。
我一趟来,就看到了这个画面。
只须一个小方位没填上,其他齐是对的。
太离谱了,这还需要东谈骨干吗?
我还用它,分析了一下阿里巴巴股票。
雷同的 case,咱们先望望 OpenAI 的 DeepResearch 的罢休。
质地是可以,很高,然而对比一下 Manus,那可读性着实是有点不胜重任了。
Manus 胜仗把任务拆解成了 8 步。
最遑急的是,当它完成的工夫,所输出的内容。
当我看到所谓的讲述,给出的是一个连结的工夫,我就猜到,这个事情有点不浮浅了。
点进去以后,果然:
不仅图文并茂,这尼玛,这些图标图表尽然是可以交互的。
我确实给跪了,我想给 Manus 磕一个。
然后今天 QwQ 不是开源了 32B 的推理模子吗,我又让 Manus 唾手作念了一个千问开源的时辰线。
在资格了 30 多分钟后,一张时辰线的舆图就出来了。专家可以考据一下望望准不准。
我无话可说,东谈主已跪地。
短短的几个小时的体验时辰
东谈主类确实行将,一败涂地。
在 Manus 的 prompt 手段上,我我方试了下,你的点,一定要充足的昭着,神色越昭着具体,Manus 就能现实得越精确。
明确施展你的生机、样式要乞降质地圭臬,可以大幅进步最终拜托物的匹配度。
这小数,相当遑急。
2025 年 3 月 6 日,我以为,即使在 AI 圈,亦然一个值得谨记的日子。
阿里开源 QwQ-32B,以如斯尺寸在性能上追平 DeepSeek R1 满血版,另一边,Manus 彻夜崛起,把 Agent 工程带上了一个新的高度。
而这两个团队,齐属于咱们中国。
没错,齐是中国团队。
为之自重吧。
彻夜的这一派星空,属于 China。
天地telegram 裸舞,正在为咱们而能干。
上一篇:chat sex5 中国手机/PC/平板改日五年将捏续增长 DeepSeek立大功?
下一篇:没有了