Alibaba accélère la course mondiale à l'IA avec WebSailor, un nouvel agent Web open source lancé le 4 juillet. Développé par son laboratoire Tongyi, WebSailor est conçu pour maîtriser des tâches de recherche d'informations très complexes qui déroutent la plupart des modèles actuels. La société affirme que son agent comble l'écart de performances avec les principaux systèmes propriétaires de concurrents comme OpenAI.
Grâce à une nouvelle méthodologie de formation axée sur des problèmes très incertains, WebSailor peut naviguer dans de vastes paysages numériques pour trouver des réponses, une étape clé vers un raisonnement « surhumain ». Cette version stratégique,disponible sur GitHub, vise à consolider la position d'Alibaba dans l'écosystème extrêmement compétitif de l'IA open source.
Lecture suggérée :Apple est peut-être en retard dans l'IA, mais il vise quelque chose de différent
Un nouveau paradigme de formation pour le raisonnement complexe
Au cœur de WebSailor se trouve une stratégie de formation sophistiquée conçue pour apprendre aux modèles à gérer l'ambiguïté. L’approche va au-delà de la simple réponse à des questions et se concentre plutôt sur ce que les chercheurs appellent des problèmes de « niveau 3 » : des tâches sans solution claire qui nécessitent une exploration approfondie.
Pour générer ces défis, l'équipe a crééSailorFog-QA, un pipeline de synthèse de données. Il crée des graphiques de connaissances complexes à partir de sites Web du monde réel, puis obscurcit délibérément les informations, par exemple en transformant des dates précises en périodes vagues, pour forcer l'agent à raisonner et à relier des faits disparates.
L'objectif, selon ledocument de recherche, est de créer un environnement de formation où « le dépassement des limitations cognitives humaines représente une frontière critique dans la formation LLM ». L’équipe évite également d’imiter directement le raisonnement verbeux des modèles d’enseignants. Au lieu de cela, ils reconstruisent des pensées concises et orientées vers l’action pour les données d’entraînement, évitant ainsi la « contamination stylistique ».
Ces données sont utilisées dans un programme d'entraînement en deux étapes. Cela commence par un « démarrage à froid » de Rejection Sampling Fine-Tuning (RFT) pour acquérir des compétences de base. Ceci est suivi d'un apprentissage par renforcement à l'aide d'un algorithme personnalisé, Duplicating Sampling Policy Optimization (DUPO), pour affiner efficacement les stratégies exploratoires de l'agent.
Définir une nouvelle référence open source
Les performances d'Alibaba positionnent WebSailor comme un nouvel agent open source de pointe. Selon les benchmarks publiés, la version 72B du modèle obtient les meilleurs scores aux tests difficiles BrowseComp en anglais et en chinois.
Sur la version chinoise du benchmark, WebSailor-72B a obtenu un score de 30,1, atteignant la parité avec des agents propriétaires comme Doubao-Search et surpassant largement les autres modèles open source. Au test d'anglais, il a obtenu un score de 12,0. Les chercheurs affirment que « WebSailor surpasse considérablement tous les agents open source dans les tâches complexes de recherche d'informations, égalant les performances des agents propriétaires et comblant l'écart de capacités. »
Benchmarks des agents IA d'Alibaba Websailor par rapport aux concurrents (Source : Alibaba)
De manière significative, les résultats suggèrent que les gains proviennent de la méthode de formation elle-même. L'article souligne que le modeste modèle WebSailor-7B surpasse de manière décisive les agents construits sur des modèles 32B beaucoup plus grands, soulignant l'efficacité du nouveau paradigme.
L’agent présente également une forte compatibilité descendante. Bien qu'il ait été formé sur des problèmes extrêmement difficiles, WebSailor surpasse les autres méthodes du benchmark SimpleQA, plus simple et basé sur des faits, démontrant que ses capacités de raisonnement avancées sont polyvalentes et ne compromettent pas les performances sur les tâches de base.
Naviguer dans la course féroce à l'IA en Chine
Cette version n’existe pas en vase clos. Il arrive au milieu d’une féroce « guerre des cent modèles » en Chine, où les géants de la technologie ouvrent agressivement leurs travaux pour conquérir des parts de marché. Cette décision positionne stratégiquement Alibaba en tant que leader du développement avancé et ouvert de l’IA.
La tension concurrentielle a été récemment mise en évidence lorsqu'un groupe de recherche a affirmé que le nouveau modèle Pangu de Huawei était une copie du modèle Qwen d'Alibaba. Le laboratoire de Huawei a fermement démenti, affirmant que son modèle n'était «… pas basé sur une formation progressive des modèles d'autres fabricants…» et qu'il avait été développé de manière indépendante.
Dans ce contexte d’intense rivalité nationale, des acteurs majeurs comme Baidu avec ses modèles ERNIE et Tencent avec Hunyuan se disputent la domination. Cette poussée est alimentée par des pressions géopolitiques plus larges, alors que les sanctions américaines limitent l’accès au matériel informatique de premier ordre et obligent les entreprises chinoises à construire des écosystèmes autonomes.
Ces pressions s’étendent au-delà du matériel. Les partenariats majeurs font l'objet d'un examen international, comme on l'a vu lorsque l'accord potentiel entre Apple et Alibaba en matière d'intelligence artificielle a suscité des réactions négatives à Washington en raison de problèmes de sécurité nationale. Cela oblige les géants chinois de la technologie à naviguer dans un paysage complexe de concurrence nationale et de politique mondiale.













