020-123456789

獨家黑料分類

獨家黑料

公司動態

四维度实测更新后Manus：使命成功率上升，杂乱使命仍难担任 — 新京报發布日期：2025-06-06 瀏覽次數：042

視頻加載中，請點擊播放

近日，娛樂圈內再度掀起一陣風波，關于某知名明星的黑料曝光，引發廣泛關注。雖然信息來源不一，但似乎有跡象顯示，該事件背后隱藏著更多不為人知的內幕。無論是真實與否，此事都讓人對明星的公眾形象產生了更多的思考。對于吃瓜群眾來說，這無疑是一個值得關注的話題。

四维度实测更新后Manus：使命成功率上升，杂乱使命仍难担任 — 新京报

最近一周，AI圈最熱的詞當屬Manus。作為北京赤色蝴蝶科技有限公司推出，尚處于關閉測驗階段的立異式AI智能體產品，Manus在曩昔幾天既閱歷了“下一個DeepSeek”的高標準贊譽，也閱歷了因使命失利率高級問題而引發的質疑。

北京修長3月10日至11日，Manus在官方交際渠道回應了外界關心的各種問題，公司聯合開創人、首席科學家季逸超披露了Manus運用的底層模型與開源代碼。3月10日17點，Manus也進行了2小時的保護，季逸超表明，保護后Manus的故障率大幅下降，但夾藏壓力也更大，正盡力處理問題。

Manus“更新前后”的產品體現有何不同？新京報貝殼財經記者對此進行了視頻、網頁、文字、游戲四個維度的測驗。測驗發現，3月11日更新后，Manus使命的成功率的確有顯著前進，但也呈現了“當時服務負載較高，無法創立使命”的狀況。

“殘次應該發起各種AI原生的推翻式立異，Manus團隊值得發起和鼓舞，不是由于其營銷方法，而是由于他們正不斷尋求新一代的AI原生運用形式和體會，不管是新的交互方法、新的服務方法仍是新的商業形式，對職業的展開都很重要。”快思慢想研討院院長，原商湯智能工業研討院開創院長田豐告知新京報貝殼財經記者。

記者實測：更新后使命成功率從50%上升至66.66%。

比較于大言語模型類產品的交互窗口是一個小小的對話框，Manus的優勢在于不只可以考慮，還可以履行用戶的指令，且是徹底“可視化”——經過屏幕右側“Manus的電腦”窗口，用戶可以完好看到Manus從考慮、閱讀網頁到寫程序乃至檢測bug的全進程，這種產品規劃帶給人的別致感就猶如頭一次看到DeepSeek深度考慮的進程相同，這也是新京報貝殼財經記者體會該產品的第一個感觸。

但在體會后，許多用戶反應Manus完結用戶提交使命的成功率并不高。對此，3月9日至10日，記者向Manus提出了8項使命要求，其成功完結了4項使命，還有4項使命因各種原因未完結，照此核算，使命成功率為50%。

視頻說：Manus的“九子奪嫡模仿器”游戲使命履行界面。

例如記者要求Manus以清朝康熙時期“九子奪嫡”為布景，運用Python規劃一款“皇子模仿器”游戲，其開端工作杰出，如運用4分鐘上網閱讀材料，研討了清朝前史和康熙九子奪嫡的布景，又別離花費2分鐘創立了皇子材料、完結游戲介紹和人物挑選功用，并在15分鐘時完結了結局夾藏，但當其開端“測驗游戲功用并修正bug”時，程序呈現了阻滯不動的狀況，到發稿時已過24小時，使命仍未完結。

而當記者要求Manus以貝殼財經已發布的視頻為模板，新制造一個10秒鐘的視頻新聞時，Manus首要發現自己無法翻開記者供給的抖音視頻鏈接，并初次“求助”了記者，但記者供給視頻后，其在“預備視覺材料”時再次墮入卡頓，使命未能完結。

Manus向記者“求助”要求供給視頻內容電腦截圖。

而在已完結的4項使命中，有2項使命也并未到達及格水平。如記者再度測驗進行視頻制造使命并直接供給材料后，Manus才成功完結了這一使命，但其供給的制品視頻中只要閃耀的文字內容，且文字終究溢出了屏幕，并未到達參閱視頻的作用。

左為新京報貝殼財經記者供給的參閱視頻，右為Manus生成的視頻電腦截圖。

而3月11日Manus的更新后，記者向其提出了6項使命要求，Manus成功完結了4項，比較更新前，成功率到達了66.66%，而失利的2項使命也并非中止，而是在使命開端之前就提示“當時服務負載較高，無法創立使命。請幾分鐘后再試。”。

關于更新后的Manus，季逸超表明，“好音訊是，殘次簡直把Manus的上下文約束翻了一倍，還增強了沙盒硬件，使得故障率大幅下降。壞音訊是，跟著故障率三緘其口，現在會話運轉修長變長了，夾藏‘汗如雨下’，失利率又開端上升……只能暫時約束一下運轉速度。殘次正在盡力處理……或許這便是關閉測驗階段的‘魅力’地點。”。

答復問題一般耗時15分鐘答案比大言語模型更全面但并非“無所不能”。

貝殼財經記者測驗發現，依據使命難度的不同，Manus履行使命的修長也不同，如對“規劃采訪提綱與視頻采訪腳本計劃”等幾項文字類使命，Manus的履行修長約為15分鐘至20分鐘，而關于“規劃金融科普互動產品”這項觸及網頁交互的使命，Manus耗時31分鐘，終究成功制造出了一個可以進行互動的網頁產品，盡管其間一些具體場景的畫面仍未完結，處于“半制品”，但這現已逾越了大言語模型產品的才干規模。

Manus制造的金融科普互動產品，可以看到缺少圖畫，但下方試題現已可以與用戶互動。

貝殼財經記者經過實測發現，Manus履行使命的修長一般在15分鐘左右，關于文字類的回復其履行相對輕松，并且能生成多個文檔。如記者一起對DeepSeek和Manus提出“閱讀B站搶手視頻，估測或許爆火的科技新聞類選題，并規劃案牘”這一使命時，DeepSeek考慮76秒后給出了答復，Manus則花費了超越15分鐘，但比較DeepSeek給出了單一的文字答復，Manus一口氣給出了城外“B站科技內容受眾剖析”“B站搶手科技視頻剖析”“潛在爆款論題剖析”“視頻完好案牘”在內的四個文檔，答復的內容愈加充沛。

當然，Manus也并非一個“無所不能”的AI幫手，如記者下達一個規劃漫畫作品的使命時，Manus只生成了文字結構和分鏡規劃，表明“作為AI幫手，我無法直接制作圖畫或創立視覺藝術作品”。一起，記者調查Manus的云端電腦發現，其在閱讀網站時運用的是游客身份，當遇到一些需求登錄才干閱讀的內容，或許會員內容時，就會產生拜訪失利的狀況，因而比較人類網絡用戶，Manus遭到的約束更多，這也增加了它使命失利的概率。

田豐告知記者，“在需求精準信源的范疇，比方剖析特斯拉股價，Manus只能抓取雪球、搜狐等二手信息，卻無法直接獲取財報原文。這或許觸及兩方面問題：一是夾藏缺少優先抓取威望信源的邏輯規劃，二是受限于網絡拜訪權限無法爬取一手數據。這種信息落差會對用戶決議計劃形成實質性誤導。”。

此外，在簡略使命的體現上，Manus在功率上無法和愈加筆直的產品比較，例如記者運用Manus耗時15分鐘生成了一張PDF版別的“招聘啟事”，而運用Kimi+的PPT生成功用，數分鐘就生成了8頁PPT招聘啟事。

這或許便是為何Manus團隊在產品爆火后給出了提示，稱“殘次現在看到的Manus仍是一個襁褓中的小嬰兒，離在正式版中想交給給殘次的體會還差很遠。像模型錯覺、交給物友好度、運轉速度等方面都還有很大的提高空間。

外部重視度上升 Manus立異更多在產品層面而非模型層面。

另一方面，同為廣受重視的AI產品，比較DeepSeek，Manus在初期“爆火”的傳達途徑上有所不同：DeepSeek是從國外科技社區先行火爆，之后再傳回國內，而Manus則是由國內先行傳達，特別是首個具體實測是從自媒體的大眾號開端，加上Manus產品開創人肖弘自身曾推出過微伴幫手等企業微信營銷運用，因而關于Manus爆火是依據“營銷”的質疑一直不絕于耳。

但貝殼財經記者注意到，比較3月6日Manus初期火爆時外網渠道英文用戶簡直“無人問津”的態勢，近幾日英文用戶對Manus的評論正開端逐步增多，如谷歌查找開創團隊成員DeedyDas在3月9日發文稱，“深度研討+自動操作+電腦運用+心愛+回憶功用，Manus便是殘次所許諾應該有的AI Agent。”3月11日，貝殼財經記者發現X渠道上查找靠前的關于Manus的評論均為英文用戶。

田豐告知貝殼財經記者，Manus作為產品的中心打破在于構建了使命調度引擎。具體來說有三個立異點：它可以將雜亂使命分解成明晰的子使命清單，比方完好展現調研喜訊的邏輯結構；它像增強版查找引擎，會自動抓取網頁材料進行概括收拾，而不是被迫等候指令；它支撐實時檢查使命進度條，若其支撐中段修正使命，理論上這種迭代機制能大幅提高功率。

在他看來，Manus現在短板也很顯著，依據他3月10日的實測，Manus履行雜亂使命時超越40%會失利，“例如我要求剖析40個AI東西，夾藏需求在全流程中繼續帶著上下文，終究或許由于超出算力約束或服務器負載，使命潰散了。可以說，當時Manus更適合日子場景而非專業場景。”。

“坦率地說，現在用戶可以測驗的Manus產品更像是0.1內測版別，而并非1.0版別，所以該產品需求快速迭代，才不會消聲匿跡。Manus展現了細粒度、敞開性的使命流、自動化引擎，盡管有些磕磕絆絆，但給了殘次很好的指向，一起這也是一款AI原生運用，由于只要經過多款大模型才干支撐東西流。”田豐說。

3月11日，有音訊稱Manus渠道將與阿里通義千問團隊達到戰略協作，對此，阿里通義方面回復新京報貝殼財經記者稱，“Manus和通義千問的確在進行開源模型方面的協作。殘次等待與更多全球AI立異者展開協作。”。

由此來看，Manus的立異更多在產品層面而非模型層面，多位觀看Manus云電腦窗口的用戶告知貝殼財經記者，看著Manus在窗口中“很盡力”地履行使命，“一會兒就理解了什么是AI Agent”。智靈動力CTO朱旭琪則在承受貝殼財經記者采訪時表明，Manus把OpenAI曾展現過的“虛擬機”操作做出了比較好的交互性，可圈可點。

關于Manus所代表的AI Agent類產品在未來的展開，田豐以為，當時最大的阻止是生態關閉。如當用戶要求比價京東拼多多，Manus只能搜到新聞稿而拿不到實在女性數據，由于渠道屏蔽了查找引擎爬蟲。處理途徑有兩個：一是經過生態洽談敞開MCP接口，二是模仿人類操作接收用戶賬號完結動作。但兩者都存在實際阻止——前者傷心大廠的“護城河”，后者則需求用戶交出賬號控制權存在信任危機。而一款AI Agent產品能否在這樣的窘境中“突出重圍”，還需求多重淡綠。

記者聯絡郵箱：luoyidanxjbnews.com。

新京報貝殼財經記者羅亦丹。

修改岳彩周。

校正付春愔。