Bei diesem neuen Mathe-Benchmark versagen selbst die besten KI-Systeme
In teils tagelanger Arbeit haben Spitzen-Mathematiker:innen anspruchsvolle Aufgaben für einen neuen Mathe-Benchmark entwickelt – bei dem selbst die besten KI-Systeme wie GPT-4o, Claude 3.5 und Gemini 1.5 Pro versagen.weiterlesen auf t3n.de
Wie ist Ihre Reaktion?