(Fügt Details zur KI-Leistung bei mathematischen Problemen hinzu, Absatz 11)

12. Juli - Der ChatGPT-Hersteller OpenAI arbeitet an einem neuartigen Ansatz für seine künstlichen Intelligenzmodelle in einem Projekt mit dem Codenamen "Strawberry", so eine mit der Angelegenheit vertraute Person und interne Unterlagen, die von Reuters eingesehen wurden.

Das Projekt, über das bisher keine Einzelheiten bekannt waren, kommt zu einem Zeitpunkt, an dem das von Microsoft unterstützte Startup zeigen will, dass die von ihm angebotenen Modelle in der Lage sind, fortgeschrittene logische Fähigkeiten zu liefern.

Teams innerhalb von OpenAI arbeiten an Strawberry, wie aus einer Kopie eines internen OpenAI-Dokuments hervorgeht, das Reuters im Mai einsehen konnte. Reuters konnte das genaue Datum des Dokuments nicht ermitteln, in dem ein Plan beschrieben wird, wie OpenAI Strawberry für die Forschung einsetzen will. Die Quelle beschrieb den Plan gegenüber Reuters als in Arbeit befindlich. Die Nachrichtenagentur konnte nicht feststellen, wie nah Strawberry an der öffentlichen Verfügbarkeit ist.

Wie Strawberry funktioniert, ist selbst innerhalb von OpenAI ein streng gehütetes Geheimnis, sagte die Person.

Das Dokument beschreibt ein Projekt, bei dem Strawberry-Modelle eingesetzt werden, um die KI des Unternehmens in die Lage zu versetzen, nicht nur Antworten auf Anfragen zu generieren, sondern so weit vorauszuplanen, dass sie autonom und zuverlässig im Internet navigieren kann, um das zu tun, was OpenAI als Deep Research bezeichnet, so die Quelle.

Laut Interviews mit mehr als einem Dutzend KI-Forschern ist dies etwas, das den KI-Modellen bisher verwehrt geblieben ist.

Auf die Frage nach Strawberry und den Details, die in dieser Geschichte berichtet werden, sagte ein Sprecher von OpenAI in einer Stellungnahme: Wir wollen, dass unsere KI-Modelle die Welt mehr so sehen und verstehen wie wir. Die kontinuierliche Erforschung neuer KI-Fähigkeiten ist eine gängige Praxis in der Branche. Wir sind davon überzeugt, dass diese Systeme im Laufe der Zeit immer besser werden.

Die Sprecherin ging nicht direkt auf Fragen zu Strawberry ein.

Das Strawberry-Projekt war früher unter dem Namen Q* bekannt. Reuters berichtete letztes Jahr, dass es innerhalb des Unternehmens bereits als Durchbruch angesehen wurde.

Zwei Quellen berichteten, dass sie Anfang des Jahres Q*-Demos gesehen haben, von denen ihnen Mitarbeiter von OpenAI sagten, dass sie in der Lage seien, knifflige wissenschaftliche und mathematische Fragen zu beantworten, die für die heutigen kommerziell erhältlichen Modelle unerreichbar seien.

Eine andere Quelle, die in die Angelegenheit eingeweiht war, sagte, dass OpenAI intern eine KI getestet hat, die bei einem MATH-Datensatz, einem Benchmark für mathematische Meisterschaftsaufgaben, über 90% erreichte. Reuters konnte nicht feststellen, ob es sich dabei um das Projekt "Strawberry" handelt.

Am Dienstag zeigte OpenAI bei einem internen Meeting eine Demo eines Forschungsprojekts, das laut Bloomberg neue, menschenähnliche Denkfähigkeiten besitzt. Ein OpenAI-Sprecher bestätigte das Treffen, lehnte es aber ab, Einzelheiten über den Inhalt zu nennen. Reuters konnte nicht feststellen, ob es sich bei dem vorgestellten Projekt um Strawberry handelt.

OpenAI hofft, dass die Innovation die Argumentationsfähigkeiten seiner KI-Modelle drastisch verbessern wird, sagte die damit vertraute Person und fügte hinzu, dass Strawberry eine spezielle Art der Verarbeitung eines KI-Modells beinhaltet, nachdem es auf sehr großen Datensätzen vortrainiert wurde.

Die von Reuters befragten Forscher sagen, dass logisches Denken der Schlüssel dazu ist, dass KI menschliche oder übermenschliche Intelligenz erreicht.

Während große Sprachmodelle bereits dichte Texte zusammenfassen und elegante Prosa viel schneller verfassen können als jeder Mensch, versagt die Technologie oft bei Problemen des gesunden Menschenverstands, deren Lösungen dem Menschen intuitiv erscheinen, wie z.B. das Erkennen von logischen Irrtümern und das Spielen von Tic-Tac-Toe. Wenn das Modell auf diese Art von Problemen stößt, halluziniert es oft falsche Informationen.

Die von Reuters befragten KI-Forscher sind sich im Allgemeinen einig, dass logisches Denken im Zusammenhang mit KI die Bildung eines Modells beinhaltet, das es der KI ermöglicht, vorausschauend zu planen, die Funktionsweise der physischen Welt zu reflektieren und schwierige, mehrstufige Probleme zuverlässig zu bewältigen.

Die Verbesserung des logischen Denkens in KI-Modellen wird als der Schlüssel zur Erschließung der Fähigkeit der Modelle angesehen, alles zu tun, von wichtigen wissenschaftlichen Entdeckungen bis hin zur Planung und Erstellung neuer Softwareanwendungen. Der CEO von OpenAI, Sam Altman, sagte Anfang des Jahres, dass die wichtigsten Fortschritte im Bereich der KI in der Fähigkeit zum logischen Denken liegen werden.

Andere Unternehmen wie Google, Meta und Microsoft experimentieren ebenfalls mit verschiedenen Techniken, um das logische Denken in KI-Modellen zu verbessern, ebenso wie die meisten akademischen Labors, die KI-Forschung betreiben. Die Forscher sind sich jedoch uneinig darüber, ob große Sprachmodelle (LLMs) in der Lage sind, Ideen und langfristige Planung in ihre Vorhersagen einzubeziehen. Einer der Pioniere der modernen KI, Yann LeCun, der bei Meta arbeitet, hat zum Beispiel häufig gesagt, dass LLMs nicht in der Lage sind, wie Menschen zu denken.

KI-HERAUSFORDERUNGEN

Strawberry ist eine Schlüsselkomponente von OpenAIs Plan, diese Herausforderungen zu überwinden, sagte die mit der Angelegenheit vertraute Quelle. Das von Reuters eingesehene Dokument beschreibt, was Strawberry ermöglichen soll, aber nicht wie.

In den letzten Monaten hat das Unternehmen Entwicklern und anderen Außenstehenden signalisiert, dass es kurz davor steht, eine Technologie mit wesentlich fortschrittlicheren Argumentationsfähigkeiten auf den Markt zu bringen, so vier Personen, die mit den Aussagen des Unternehmens vertraut sind. Sie wollten nicht genannt werden, weil sie nicht befugt sind, über private Angelegenheiten zu sprechen.

Strawberry beinhaltet eine spezielle Art des sogenannten Post-Trainings von OpenAIs generativen KI-Modellen, d.h. die Anpassung der Basismodelle, um ihre Leistung auf bestimmte Art und Weise zu verbessern, nachdem sie bereits auf Unmengen von verallgemeinerten Daten trainiert wurden, so eine der Quellen.

Die Nachtrainings-Phase bei der Entwicklung eines Modells umfasst Methoden wie die Feinabstimmung, ein Prozess, der heute bei fast allen Sprachmodellen angewandt wird und der in vielen Varianten vorkommt, z.B. indem Menschen dem Modell Feedback zu seinen Antworten geben und es mit Beispielen für gute und schlechte Antworten füttern.

Strawberry hat Ähnlichkeiten mit einer Methode, die 2022 in Stanford entwickelt wurde und "Self-Taught Reasoner oder STaR" genannt wird, so eine der Quellen, die mit der Angelegenheit vertraut sind. STaR ermöglicht es KI-Modellen, sich selbst auf ein höheres Intelligenzniveau zu heben, indem sie iterativ ihre eigenen Trainingsdaten erzeugen. Theoretisch könnte STaR dazu verwendet werden, Sprachmodelle dazu zu bringen, das menschliche Intelligenzniveau zu übertreffen, sagte einer der Entwickler, Stanford-Professor Noah Goodman, gegenüber Reuters.

Ich denke, das ist sowohl aufregend als auch beängstigend, wenn sich die Dinge weiter in diese Richtung entwickeln, müssen wir uns als Menschen einige ernsthafte Gedanken machen, sagte Goodman. Goodman hat keine Verbindung zu OpenAI und ist mit Strawberry nicht vertraut.

Zu den Fähigkeiten, auf die OpenAI mit Strawberry abzielt, gehört die Durchführung von Aufgaben mit langem Zeithorizont (Long Horizon Tasks, LHT), heißt es in dem Dokument. Damit sind komplexe Aufgaben gemeint, bei denen ein Modell vorausplanen und eine Reihe von Aktionen über einen längeren Zeitraum hinweg durchführen muss, so die erste Quelle.

Zu diesem Zweck erstellt, trainiert und evaluiert OpenAI die Modelle anhand eines Datensatzes, den das Unternehmen als "Deep Research" bezeichnet, so die interne Dokumentation von OpenAI. Reuters war nicht in der Lage herauszufinden, was in diesem Datensatz enthalten ist oder wie lang ein längerer Zeitraum sein würde.

OpenAI möchte insbesondere, dass seine Modelle diese Fähigkeiten nutzen, um Recherchen durchzuführen, indem sie das Internet autonom mit der Unterstützung eines CUA (computer-using agent) durchsuchen, der auf der Grundlage seiner Erkenntnisse Maßnahmen ergreifen kann, wie es in dem Dokument und einer der Quellen heißt. OpenAI plant auch, seine Fähigkeiten zu testen, indem es die Arbeit von Ingenieuren für Software und maschinelles Lernen übernimmt. (Berichte von Anna Tong in San Francisco und Katie Paul in New York; Bearbeitung durch Ken Li und Claudia Parsons)