Tout le monde dans l’IA parle de Manus. Nous l’avons mis à l’épreuve.

Depuis le lancement de l’agent général de l’IA Manus la semaine dernière, il s’est propagé en ligne comme une traînée de poudre. Et pas seulement en Chine non plus, où il a été développé par l’effet de papillon de démarrage basé à Wuhan. Il a fait son chemin dans la conversation mondiale, avec des voix influentes dans la technologie, notamment le co-fondateur de Twitter Jack Dorsey et le produit de Face Hugging Face, le produit Victor Mustar, faisant l’éloge de ses performances. Certains l’ont même surnommé «Le second En profondeur», Dessinant des comparaisons avec le modèle d’IA précédent qui a pris l’industrie par surprise – à la fois pour ses capacités inattendues et son origine.
Manus prétend être le premier agent général de l’IA au monde – déverniant plusieurs modèles d’IA (tels que le sonnet Claude 3.5 d’Anthropic et les versions affinées de l’Open-source d’Alibaba), et divers agents opérationnels indépendants pour agir de manière autonome sur un large éventail de tâches. (Ceci est différent des chatbots d’IA, y compris Deepseek, qui sont basés sur une seule famille de modèles de langage unique et sont principalement conçus pour les interactions conversationnelles.)
Malgré tout le battage médiatique, très peu de gens ont eu la chance de l’utiliser. Actuellement, moins de 1% des utilisateurs de la liste d’attente ont reçu un code d’invitation. (On ne sait pas combien de personnes se trouvent sur cette liste d’attente, mais pour un sentiment d’intérêt, la chaîne Discord de Manus compte plus de 186 000 membres.)
Revue de la technologie du MIT J’ai pu obtenir l’accès à Manus, et lorsque je lui ai donné un essai routier, j’ai trouvé que l’utiliser ressemblait à collaborer avec un stagiaire très intelligent et efficace: bien qu’il manque parfois de compréhension de ce qu’il est demandé de faire, fait clairement des hypothèses incorrectes, ou réduit les coins pour accélérer les tâches, il explique clairement son raisonnement, est remarquablement adaptable et peut améliorer substantiellement lorsque les instructions ou les commentaires sont détaillés. En fin de compte, c’est prometteur mais pas parfait.
Tout comme le produit précédent de sa société mère, un assistant d’IA appelé Monica qui a été publié en 2023, Manus est destiné à un public mondial. L’anglais est défini comme la langue par défaut, et sa conception est propre et minimaliste.
Pour entrer, un utilisateur doit entrer un code d’invitation valide. Ensuite, le système dirige les utilisateurs vers une page de destination qui ressemble étroitement à celles de Chatgpt ou Deepseek, avec des sessions historiques affichées dans une colonne de gauche et une boîte d’entrée de chat au centre. La page de destination comprend également des exemples de tâches organisées par l’entreprise, passant du développement de la stratégie commerciale à l’apprentissage interactif aux séances de méditation audio personnalisées.
Comme d’autres outils d’origine AI basés sur le raisonnement, tels que Chatgpt DeepResearch, Manus est capable de décomposer les tâches en étapes et de naviguer de manière autonome sur le Web pour obtenir les informations dont elle a besoin pour effectuer des tâches. Ce qui le distingue, c’est la fenêtre «Manus’s Computer», qui permet aux utilisateurs non seulement d’observer ce que fait l’agent, mais aussi d’intervenir à tout moment.
Pour le mettre à l’épreuve, j’ai chargé Manus avec trois affectations: (1) compiler une liste de journalistes notables couvrant China Tech, (2) la recherche de listes de biens de deux chambres à New York, et (3) nommer des candidats potentiels pour Innovateurs de moins de 35 ansune liste créée par Revue de la technologie du MIT chaque année.
Voici comment ça a fait:
Tâche 1: La première liste des journalistes que Manus ne m’a contenue que cinq noms, avec cinq «mentions honorables» en dessous d’eux. J’ai remarqué qu’il répertoriait le travail notable de certains journalistes sans d’autres. J’ai demandé à Manus pourquoi cela avait fait cela. La raison pour laquelle il a offert était hilarante: elle est devenue paresseuse. C’était « en partie dû à des contraintes de temps car j’ai essayé d’accélérer le processus de recherche », m’a dit l’agent. Lorsque j’ai insisté sur la cohérence et la minutie, Manus a répondu avec une liste complète de 30 journalistes, notant leur débouché actuel et leur travail notable. (J’étais content de voir que j’ai fait la coupe, avec beaucoup de mes pairs bien-aimés.)
J’ai été impressionné que j’ai pu faire des suggestions de haut niveau pour les changements, tout comme quelqu’un le ferait avec un stagiaire ou un assistant réel, et qu’il a répondu en nature. Et bien qu’il ait initialement négligé les changements de statut d’employeur de certains journalistes, lorsque je lui ai demandé de revoir certains résultats, il les a rapidement corrigés. Une autre fonctionnalité belle: la sortie était téléchargeable en tant que fichier Word ou Excel, ce qui facilite la modification ou le partage avec les autres.
Manus a frappé un accroc, cependant, lors de l’accès aux articles de presse des journalistes derrière les salles de paie; Il a fréquemment rencontré des blocs de captcha. Comme j’ai pu suivre étape par étape, je pouvais facilement prendre le relais pour les compléter, bien que de nombreux sites médiatiques aient toujours bloqué l’outil en raison d’une activité suspecte. Je vois un potentiel d’améliorations majeures ici – et il serait utile si une future version de Manus pouvait demander de l’aide de manière proactive lorsqu’elle rencontre ce type de restrictions.
Tâche 2: Pour la recherche d’appartements, j’ai donné à Manus un ensemble complexe de critères, y compris un budget et des paramètres pour une cuisine spacieuse, un espace extérieur, un accès au centre-ville de Manhattan et une grande gare à moins de sept minutes à pied. Manus a initialement interprété des exigences vagues comme «une sorte d’accès en plein air» trop littéralement, excluant complètement les propriétés sans terrasse privée ou accès au balcon. Cependant, après plus de conseils et de clarifications, il a pu compiler une liste plus large et plus utile, donnant des recommandations dans les niveaux et des puces soignées.
La sortie finale se sentait directement de Filoucontenant des sous-titres comme «Best Global», «Best Value» et «Luxury Option». Cette tâche (y compris les allers-retours) a pris moins d’une demi-heure – beaucoup plus rapidement que de compiler la liste des journalistes (ce qui a pris un peu plus d’une heure), probablement parce que les listes de propriétés sont plus ouvertement disponibles et bien structurées en ligne.
Tâche 3: C’était la plus grande portée: j’ai demandé à Manus de nommer 50 personnes pour la liste des innovateurs de cette année. La production de cette liste est une entreprise énorme et nous obtenons généralement des centaines de nominations chaque année. J’étais donc curieux de voir à quel point Manus pouvait bien faire. Il a divisé la tâche en étapes, notamment en examinant les listes passées pour comprendre les critères de sélection, en créant une stratégie de recherche pour identifier les candidats, compiler des noms et assurer une sélection diversifiée de candidats du monde entier.
L’élaboration d’une stratégie de recherche a été la partie la plus longue pour Manus. Bien qu’il ne décrivait pas explicitement son approche, la fenêtre d’ordinateur du manus a révélé que l’agent faisait rapidement défiler les sites Web des universités de recherche prestigieuses, les annonces de prix technologiques et les articles de presse. Cependant, il a de nouveau rencontré des obstacles lorsque vous essayez d’accéder aux articles académiques et au contenu des médias.
Après trois heures de parcourir Internet – lors de quel manus (naturellement) m’a demandé plusieurs fois si je pouvais restreindre la recherche – il n’a pu me donner que trois candidats avec des profils de fond complets. Lorsque j’ai appuyé à nouveau pour fournir une liste complète de 50 noms, il en a finalement généré un, mais certaines institutions et domaines universitaires étaient fortement surreprésentés, reflétant un processus de recherche incomplet. Après avoir souligné le problème et lui ai demandé de trouver cinq candidats de Chine, il a réussi à compiler une solide liste de cinq noms, bien que les résultats soient biaisés envers les trafiquants des médias chinois. En fin de compte, j’ai dû abandonner après que le système a averti que les performances de Manus pourraient diminuer si je continuais à saisir trop de texte.
Mon évaluation: Dans l’ensemble, J’ai trouvé que Manus était un outil très intuitif adapté aux utilisateurs avec ou sans arrière-plans de codage. Sur deux des trois tâches, il a fourni de meilleurs résultats que lorsque j’ai présenté les mêmes tâches à Chatgpt DeepResearch, bien qu’il ait pris beaucoup plus de temps pour les terminer. Manus semble mieux adapté aux tâches analytiques qui nécessitent des recherches approfondies sur Internet ouvert, mais ont une portée limitée. En d’autres termes, il est préférable de s’en tenir au genre de choses qu’un stagiaire humain qualifié pourrait faire pendant une journée de travail.
Pourtant, ce n’est pas toutes des voiles lisses. Manus peut souffrir de crashs fréquents et d’instabilité du système, et peut lutter lorsqu’on lui demande de traiter de gros morceaux de texte. Le message «En raison de la charge de service élevée actuelle, les tâches ne peuvent pas être créées. Veuillez réessayer dans quelques minutes »a flashé sur mon écran plusieurs fois lors du démarrage de nouvelles demandes, et parfois l’ordinateur de Manus s’est figé sur une certaine page pendant une longue période.
Il a un taux d’échec plus élevé que ChatGpt DeepResearch – un problème que l’équipe s’attaque, selon au scientifique en chef de Manus Peak Ji. Cela dit, le média chinois 36 kr Les rapports selon lesquels le coût par tâche de Manus est d’environ 2 $, soit un dixième du coût de DeepResearch. Si l’équipe Manus renforce son infrastructure de serveur, je peux voir l’outil devenir un choix préféré pour les utilisateurs individuels, en particulier les professionnels des cols blancs, les développeurs indépendants et les petites équipes.
Enfin, je pense qu’il est vraiment utile que le processus de travail de Manus soit plus transparent et collaboratif. Il pose activement des questions en cours de route et conserve des instructions clés en tant que «connaissances» dans sa mémoire pour une utilisation future, permettant une expérience agentique facilement personnalisable. C’est aussi très bien que chaque session soit rejouable et partageable.
Je m’attends à ce que je continue d’utiliser Manus pour toutes sortes de tâches, à la fois dans ma vie personnelle et professionnelle. Bien que je ne sois pas sûr que les comparaisons avec Deepseek aient une raison tout à fait correcte, il prouve que les sociétés d’IA chinois ne suivent pas seulement les traces de leurs homologues occidentaux. Ils n’innovent pas seulement sur les modèles de base, mais façonnent activement l’adoption d’agents d’IA autonomes à leur manière.