Anthrope ha realizado recientemente mejoras en su buque insignia.que ha pasado un poco por debajo del radar debido a otros anuncios comoy. Pero el nuevo soneto Claude 3.5 también trae consigo otras mejoras.
Si bien el uso de la computadora es definitivamente un gran problema, la mayoría de las personas no lo adoptarán muy ampliamente. Para empezar, todavía está en etapas muy tempranas y no es completamente confiable en este momento. Además, el hecho de que solo se puede usar a través de API y no la interfaz de chat general hace que su audiencia limite.
El soneto Claude 3.5 (nuevo), por otro lado, es algo que puede usar en este momento con mejores resultados. Entonces, ¿cómo es exactamente mejor el nuevo soneto 3.5?
Según el informe de Anthrope, Claude 3.5 Sonnet (nuevo) ha mostrado mejoras significativas sobre sus predecesores y muchos competidores en los puntos de referencia de la industria. Sus mejoras en la codificación de agente y el uso de la herramienta de agente son particularmente intrigantes. En la codificación de agente, se mejora de 33.4% a 49% en el bancos SWE verificado, mientras que en la herramienta de agente utiliza la prueba de bench Tau, se mejora de 51.0% a 69.2% en el dominio minorista, y de 22.8% a 46.0% en el Dominio de la aerolínea. Los avances se han logrado al mismo precio y velocidad que su predecesor.

Cuando se pone a prueba, el soneto Claude 3.5 (nuevo), que algunas personas llaman el soneto 3.6 debido al nombre confuso, muestra mejoras significativas, especialmente en la codificación, el razonamiento y la escritura creativa.
Claude ya se consideró el mejor en la codificación por el consenso general, pero ha mejorado significativamente desde la nueva actualización. Puede manejar problemas extremadamente complejos dentro de respuestas individuales. También ha mejorado para mejorar sus errores.
El nuevo soneto Claude 3.5 ahora también es significativamente más rápido en dar respuestas, lo que es algo que los usuarios habían estado experimentando frustrantemente con el soneto Claude 3.5 en los últimos meses: el rendimiento se había degradado drásticamente.
El nuevo Claude también tiene mejores capacidades de razonamiento,. Si bien no es tan bueno para un razonamiento complejo como ChatGPT-O1, todavía es muy bueno en problemas básicos de razonamiento.
Puede probar las habilidades de razonamiento de Claude usted mismo con indicaciones comoHow many words are in your response to this prompt?
. Curiosamente, los modelos LLM con la lucha de la arquitectura de transformadores con indicaciones de este tipo debido a su arquitectura, ya que básicamente están prediciendo las siguientes palabras más probables. Sin embargo, un aviso como este los obliga a pensar de antemano.
Ahora, el O1 de OpenAI, siendo un modelo de razonamiento, puede manejar eficientemente este tipo de aviso. Si bien el soneto Claude 3.5 (nuevo) no es tan bueno para manejar este aviso como O1, es significativamente mejor que el soneto Claude 3.5. Anteriormente, todo lo que Claude hizo era tratar de hacer una suposición educada. Pero ahora, en realidad puede intentar contar las palabras. Sin embargo, no tiene en cuenta todas las palabras en su respuesta. Si la respuesta de Claude es correcta o no, será determinada por su preferencia personal.
Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

Del ejemplo a continuación, algunos usuarios dirían que contó correctamente las palabras que consideró su respuesta. También continúa diciendo que no contará las palabras después de la respuesta, ya que son puramente para presentar su razonamiento. Estoy dispuesto a dejar que pase eso, pero no estoy dispuesto a ignorar el hecho de que también olvidó el anterior 'Déjame contar las palabras en mi respuesta a tu pregunta', pero algunas personas podrían no incluirlo como parte de la respuesta de Claude. Entonces, como dije, se reducirá al juicio personal.
Sin embargo, demuestra el hecho de que el nuevo soneto Claude 3.5 ha ganado habilidades de razonamiento mejoradas. De hecho, ahora puede presentar su proceso de razonamiento o decirle al usuario que se reflexiona en él, manténgalo ", cuando necesita tiempo para pensar, algo así como O1. Incluso puede autocorregarse a veces, diciéndole al usuario 'Déjame repensar esto'.
Esta capacidad de poder pensar que se avecina también ha resultado en que Claude mejore en la escritura creativa. Su capacidad para pensar hacia adelante significa que ahora puede crear largas historias con arcos cohesivos, presagios y personajes interesantes.
También hay mejoras considerables en su rendimiento analítico. Es casi tan bueno como el modelo más grande de Antrhópico Claude 3 Opus y Openi's O1 Mini en el análisis.
En general, la nueva actualización trae mejoras significativas en varias áreas. Pero sus nuevas habilidades de codificación han sido la conversación de la ciudad. Lo único que pone a Claude en un inconveniente ahora son los límites de uso, incluso para los usuarios profesionales, que son sustancialmente menos que los de Chatgpt.