Eine Gruppe von Ingenieuren, Forschern und ein im Silicon Valley ansässiges Chip-Unternehmen haben gemeinsam eine fortschrittliche arabische Sprachsoftware veröffentlicht, die generative KI-Anwendungen unterstützen kann.

Das neue große Sprachmodell mit dem Namen Jais enthält 13 Milliarden Parameter, die aus einer großen Menge von Daten gewonnen wurden, die Arabisch und Englisch kombinieren, wobei ein Teil davon aus Computercode stammt. Die Gruppe, der Akademiker und Ingenieure angehören, hat das Projekt zum Teil deshalb in Angriff genommen, weil es nur wenige große Sprachmodelle gibt, die zweisprachig sind.

Das neue Sprachmodell wurde mit Hilfe von Supercomputern des im Silicon Valley ansässigen Unternehmens Cerebras Systems erstellt, das Chips in der Größe von Esstellern entwickelt, die mit der leistungsstarken KI-Hardware von Nvidia konkurrieren. Die Chips von Nvidia sind knapp, was Unternehmen auf der ganzen Welt dazu veranlasst hat, nach Alternativen zu suchen.

Jais, benannt nach dem höchsten Gipfel der Vereinigten Arabischen Emirate, ist eine Zusammenarbeit zwischen Cerebras, der Mohamed bin Zayed University of Artificial Intelligence und einer Tochtergesellschaft des in Abu Dhabi ansässigen Technologiekonglomerats G42 namens Inception, die sich auf KI konzentriert.

Da es nicht genügend arabische Daten gibt, um ein Modell der Größe von Jais zu trainieren, half der Computercode in den englischsprachigen Daten dabei, die Denkfähigkeit des Modells zu trainieren, so Timothy Baldwin, Professor für Künstliche Intelligenz an der Mohamed bin Zayed University.

"(Der Code) gibt dem Modell einen großen Vorsprung in Bezug auf seine Denkfähigkeiten, weil er die Schritte buchstabiert", sagte Baldwin gegenüber Reuters.

Jais wird über eine Open-Source-Lizenz verfügbar sein.

Die Gruppe trainierte das Jais-Modell auf einem Supercomputer von Cerebras, der Condor Galaxy. In diesem Jahr gab Cerebras bekannt, dass es drei solcher Einheiten an G42 verkauft hat. Die erste soll noch in diesem Jahr eintreffen und die restlichen Einheiten sollen 2024 ausgeliefert werden.