Gemini 3.5 Flash steuert jetzt selbst Computer

Gemini 3.5 Flash bekommt Augen und Haende fuer den Computer

Google DeepMind ruestet sein schnelles Modell mit einer Funktion aus, die KI nicht mehr nur reden, sondern klicken laesst.

Eine KI, die nicht nur Texte schreibt, sondern selbst die Maus bewegt und Felder ausfuellt - das ist die Richtung, in die Google DeepMind sein Modell Gemini 3.5 Flash schiebt. Mit der neuen Funktion 'computer use' soll das Modell Bildschirminhalte verstehen und direkt auf ihnen handeln koennen. Damit verschiebt sich die Rolle solcher Systeme: weg vom Gespraechspartner, hin zum Assistenten, der tatsaechlich Aufgaben ausfuehrt.

Google DeepMind kuendigte die Erweiterung am 24. Juni in einem Blogeintrag an, der gleichzeitig in einschlaegigen Tech-Foren wie Hacker News diskutiert wurde. Die Funktion traegt den Namen 'computer use in Gemini 3.5 Flash'. Mehr Details als die Ankuendigung selbst sind im vorliegenden Material nicht enthalten - weder konkrete Benchmarks noch Preise, noch eine genaue Liste unterstuetzter Anwendungen. Klar ist nur: Die Faehigkeit, einen Computer zu bedienen, wird in die 'Flash'-Variante eingebaut, also in das Modell, das Google bisher als schnelles und vergleichsweise guenstiges Arbeitstier positioniert. Dass diese Faehigkeit nicht im teuersten Topmodell, sondern in der Flash-Reihe landet, ist die eigentliche Nachricht.

Computer-Use-Agenten sind seit etwa einem Jahr das grosse Versprechen der KI-Branche. Die Idee: Eine KI sieht den Bildschirm, versteht, was darauf zu sehen ist, und kann Knoepfe druecken, Formulare ausfuellen oder Recherchen in echten Webseiten erledigen - statt nur Anweisungen dazu zu formulieren. Wenn Google diese Faehigkeit ausgerechnet in das schnelle, billige Flash-Modell einbaut, setzt das die Konkurrenz unter Druck. Denn ein Agent, der minutenlang ueber jeden Klick nachdenkt, ist in der Praxis kaum brauchbar. Tempo ist hier kein Komfort, sondern Voraussetzung. Wer Routineaufgaben am Rechner automatisieren will - Recherchen, Datenuebernahmen, das Ausfuellen wiederkehrender Formulare - braucht ein Modell, das in Sekunden reagiert, nicht in Minuten. Aus dieser Logik heraus ergibt der Schritt Sinn: Geschwindigkeit schlaegt im Agenten-Alltag oft Glanzleistung.

Vieles bleibt im Material allerdings offen. Es ist nicht belegt, wie zuverlaessig die Funktion in der Praxis arbeitet, in welchen Regionen sie verfuegbar ist und ob sie nur ueber die Programmierschnittstelle nutzbar ist oder auch in Endkundenprodukten landet. Auch zu Sicherheitsfragen schweigt das vorliegende Material - dabei sind genau diese die heikelsten: Eine KI, die selbststaendig Maus und Tastatur eines Rechners steuert, kann theoretisch auch Dinge tun, die der Nutzer nicht beabsichtigt hat. Von versehentlich verschickten E-Mails ueber falsch ausgefuellte Bestellungen bis zu manipulierten Anweisungen aus praeparierten Webseiten reicht das Spektrum moeglicher Probleme. Wie Google diese Risiken adressiert, geht aus den vorliegenden Quellen nicht hervor.

In den naechsten Tagen lohnt der Blick auf zwei Dinge: Erstens, ob unabhaengige Tester Geschwindigkeit und Trefferquote des Agenten gegen Konkurrenzangebote messen. Zweitens, ob Google Beispiele zeigt, in denen das System reale, mehrstufige Aufgaben ohne menschliche Korrektur erledigt - oder ob die Demos auf eng abgesteckte Szenarien beschraenkt bleiben. Daran wird sich ablesen lassen, ob 'computer use in Gemini 3.5 Flash' tatsaechlich ein Werkzeug fuer den Alltag wird oder vorerst eine technische Demonstration bleibt.

PROD

Mistral OCR 4 liest Dokumente in 170 Sprachen

Mistral AI hat OCR 4 veröffentlicht. Das Modell extrahiert nicht nur Text, sondern strukturiert Inhalte direkt für Enterprise Search und RAG-Pipelines. Damit eignet es sich für automatisierte Dokumentenverarbeitung im Unternehmenseinsatz.

PROD

Nex N2 Pro: Neues Modell mit 262K Kontext auf OpenRouter

Nex-AGI hat das Modell Nex N2 Pro über SiliconFlow auf OpenRouter veröffentlicht. Es bietet einen Kontextfenster von 262.000 Token. Die Veröffentlichung erfolgte in den letzten 24 Stunden.

PROD

Anthropic stellt Claude Tag für Teamarbeit vor

Anthropic hat Claude Tag eingeführt. Das neue Angebot richtet sich an Teams, die gemeinsam mit Claude arbeiten wollen. Details zur Funktionsweise sind im Material nicht näher beschrieben.

PROD

Mistral gibt mehr Kontrolle über Konnektoren

Mistral hat eine Aktualisierung im Bereich Konnektoren angekündigt. Nutzer sollen mehr Kontrolle über ihre Verbindungen erhalten. Weitere technische Details sind im Material nicht enthalten.

RubyLLM: Framework verbindet Ruby-Code mit großen KI-Anbietern

RubyLLM ist ein neues Open-Source-Framework für die Programmiersprache Ruby. Es ermöglicht den Zugriff auf alle großen KI-Anbieter über eine einheitliche Schnittstelle. Details zur Lizenz oder zum Entwicklungsstand sind im Material nicht angegeben.

Open-Source-KI: Für viele Länder die einzige Option

Ein Beitrag auf Hacker News argumentiert, dass Open-Source-KI für den Großteil der Welt der einzig gangbare Weg sei. Proprietäre Modelle großer Anbieter sind für viele Regionen schwer zugänglich. Eine Begründung oder Datenbasis nennt das Material nicht.

NVIDIA NeMo AutoModel beschleunigt Transformer-Fine-Tuning

Hugging Face beschreibt in einem Blogbeitrag, wie NVIDIA NeMo AutoModel das Fine-Tuning von Transformer-Modellen schneller macht. Konkrete Geschwindigkeitswerte oder Benchmark-Zahlen sind im Material nicht angegeben.

MARKT

Reid Hoffman: xAI sei ein "komplettes Desaster"

Reid Hoffman hat sich öffentlich zu xAI und SpaceX geäußert. SpaceX bezeichnete er als kein KI-Unternehmen, xAI nannte er ein "complete train wreck". Hintergründe oder Reaktionen der genannten Unternehmen sind im Material nicht enthalten.

Gemini 3.5 Flash steuert jetzt selbst Computer

KI-4-Everyone · Daily News