(D) Les modèles Frontier AI échouent toujours aux tâches physiques de base: une étude de cas de fabrication

Les LLM ont fait des progrès significatifs sur de nombreuses tâches de col blanc. Comment fonctionnent-ils sur des tâches de col bleu simples? Ce message a une étude de cas détaillée sur la fabrication d’une pièce simple en laiton. Tous les modèles frontaliers font terriblement, même sur les parties les plus faciles de la tâche. Étonnamment, la plupart des modèles ont également de terribles capacités visuelles et ne sont pas en mesure d’identifier des fonctionnalités simples de la pièce. Gemini-2.5-Pro fait de son mieux, mais est toujours très mauvais. En conséquence, nous devons nous attendre à voir des progrès dans le monde physique qui sont considérablement retardés dans le monde numérique, à moins que de nouvelles architectures ou des objectifs de formation n’améliorent considérablement la compréhension spatiale et l’efficacité de l’échantillon. Lien vers le message ici: https://adamkarvonen.github.io/machine_learning/2025/04/13/llm-manufacturing-eval.html soumis par / u / Seraine |