Zum Inhalt springen

KI-Boom Google stellt neues KI-Modell vor und spricht von einer »neuen Ära«

Was GPT-4 für OpenAI ist, soll Gemini für Google werden – aber natürlich stärker und besser. Das KI-Modell verstehe Texte, Bilder, Audio- und Videoinhalte und sei ein »Meilenstein«. Doch noch ist es unfertig.
Google-Rechenzentrum mit neuen, hauseigenen KI-Chips vom Typ TPU v5p: Zunächst nur »für frühe Experimente und Feedback«

Google-Rechenzentrum mit neuen, hauseigenen KI-Chips vom Typ TPU v5p: Zunächst nur »für frühe Experimente und Feedback«

Foto: Google

Google hat am Mittwoch seine neue künstliche Intelligenz Gemini vorgestellt, mit der das Unternehmen im KI-Wettrennen aufholen – oder besser: zum Überholen ansetzen will. Erstmals erwähnte Google das neue Modell im Frühjahr auf seiner Entwicklerkonferenz, doch die Veröffentlichung zog sich hin. Selbst jetzt ist Gemini alles andere als fix und fertig. Der holprige Start passt dazu, dass Google bei KI-Anwendungen gegenüber der Konkurrenz von OpenAI und Microsoft hinterherhinkt.

Ein Beispiel, das zeigen soll, wie Geminis Fähigkeiten im Alltag helfen könnten , richtet sich auf den ersten Blick an überforderte Eltern, die von Physik- und Mathehausaufgaben ebenso wenig Ahnung haben wie ihre Kinder . Die neue künstliche Intelligenz versteht nicht nur die ausgedruckten Fragen aus dem Schulbuch, sondern auch die handgeschriebenen Antworten und was an denen falsch ist.

Das mag nicht für alle nach der neuen KI-Killer-Anwendung schlechthin klingen, doch Google will mit dem Beispiel einen aus Sicht des Unternehmens wichtigen Fortschritt im Bereich von künstlicher Intelligenz präsentieren. Dieser lässt sich mit einem Wort beschreiben: Multimodalität. Gemini ist von Grund auf multimodal ausgelegt, kann also nach Angaben der Entwickler mit Text, Bildern, Audio- und Videoinhalten gleichermaßen umgehen. Und immer wieder taucht in Googles Ankündigung  das englische Wort reasoning auf: logisches Denken oder Schlussfolgern. Darin soll Gemini besonders gut sein. Die Hausaufgabenhilfe illustriert diese Kette aus Verstehen von Text und Bild, Prüfen und Schlussfolgern.

»Das ist ein signifikanter Meilenstein in der Entwicklung von KI und der Beginn einer neuen Ära für uns«, teilt Google etwas redundant mit.

Keine einzelne App, sondern ein Modell

Auf einen Schlag sichtbar wird der Beginn dieser Ära nicht. Gemini ist keine komplette Anwendung wie ChatGPT, sondern ein Modell wie GPT-4 des Konkurrenten OpenAI. Es wird also in verschiedenen Google-Produkten im Hintergrund laufen, früher oder später.

Die erste Gemini-Generation 1.0 wird es in drei Größen geben: Nano, Pro und Ultra. Die kleinste ist ganz auf Effizienz getrimmt und soll sogar auf mobilen Geräten wie Smartphones laufen können. Genauer gesagt: auf speziellen KI-Chips für diese Geräte. Der Vorteil dieser Konstruktion im Gegensatz zu einer Cloudanbindung an ein größeres Modell ist, dass Gemini Nano keine Verbindung zu Googles Servern benötigt. Deshalb kann es auch mit vertraulichen Chats etwa in WhatsApp arbeiten, um dort Antwortvorschläge zu machen oder Grammatikfehler zu korrigieren. Das Google Pixel 8 Pro ist seit dem heutigen Mittwoch das erste Smartphone, für das Gemini Nano zur Verfügung steht.

Europa muss noch auf Gemini warten

Sofort nutzbar ist auch Gemini Pro – und zwar, weil es im Chatbot Bard steckt, Googles Antwort auf ChatGPT. Es sei das bisher größte Update für Bard, teilte Google mit, stehe zunächst allerdings nur auf Englisch »in mehr als 170 Ländern und Territorien« zur Verfügung. Europa ist nicht darunter.

Die Ultra-Version wird in Googles Rechenzentren laufen und das leistungsfähigste Modell darstellen, das Google zu bieten hat. Es sei das erste Modell, das menschliche Experten im MMLU-Test  (massive multitask language understanding) in seinem Wissen unter anderem über Mathematik, Physik, Geschichte, Recht, Medizin und Ethik und der Fähigkeit, Probleme in diesen Bereichen zu lösen, übertrumpft.

Gemini Ultra sei in fast allen durchgeführten Vergleichstests überlegen, hieß es von Google. Auch gegenüber GPT-4, das derzeit als State-of-the-art-Modell gilt, allerdings auch schon im März veröffentlicht wurde.

Auch Microsoft rüstet nach

Allerdings wird es noch dauern, bis Gemini in weiteren Produkten des Unternehmens eingesetzt wird, in denen es hilfreich sein könnte. In der Google-Suche, im Browser Chrome und auch in Googles Werbediensten wird es noch Monate dauern, bis es so weit ist. Die Ultra-Variante wird zuerst auch nur ausgewählten Kunden, Entwicklern, Partnern und Sicherheitsfachleuten »für frühe Experimente und Feedback« zur Verfügung stehen, bevor »Anfang des Jahres« ein größerer Kreis das Modell wird nutzen können.

Zuvor ist Google noch mit Schutzmaßnahmen beschäftigt. Interne und externe Expertinnen und Experten, teilte das Unternehmen mit, hätten Gemini bereits ausgiebig gehackt, um potenzielle Sicherheitsrisiken bis hin zu autonomen Handlungen der KI zu erkennen. Auch toxische, einseitige oder faktisch falsche Inhalte soll Gemini möglichst nicht erstellen oder akzeptieren. Finetuning und menschliches Feedback sollen, wie es im Übrigen auch bei OpenAI üblich ist, das Modell anschließend zuverlässiger und alltagstauglicher machen.

Ob und wie lange Google mit Gemini einen Vorsprung gegenüber OpenAI erreichen könnte, ist daher fürs Erste nicht zu beantworten. Die Vorstellung von ChatGPT vor etwas mehr als einem Jahr wird mitunter als »iPhone-Moment der KI« beschrieben – Google hingegen streckt seine KI-Momente weiterhin auf Monate. Und wie zufällig kündigte Microsoft einen Tag vor Googles Neuvorstellung ein großes Upgrade seines KI-»Copilot«  an: »Bald« schon werde dahinter das neue OpenAI-Modell GPT-4 Turbo stecken und dadurch unter anderem multimodaler arbeiten können.

Anmerkung der Redaktion: In einer früheren Fassung dieses Artikels hieß es, Google habe noch keinen Zeitpunkt für die Bereitstellung von Gemini Nano im Pixel 8 Pro genannt. Das ist falsch, das KI-Modell steht ab sofort für das Smartphone zur Verfügung. Wir haben den Satz korrigiert.