Microsoft erweitert den Researcher Agent von Copilot um „Computernutzung“, um Webaufgaben zu automatisieren

In einem bedeutenden Schritt hin zu einer autonomeren KI hat Microsoft heute ein großes Upgrade für seinen Researcher-Agenten in Microsoft 365 Copilot vorgestellt.

Das Unternehmen hat eine „Computernutzung“-Funktion hinzugefügt, die den Agenten von einem Tool, das lediglich Informationen findet und synthetisiert, in ein Tool verwandelt, das dies kannAktive Aufgaben im Namen eines Benutzers ausführen.

Diese Fähigkeit ermöglicht es der KI, durch komplexe Websites zu navigieren, mit authentifizierten Inhalten zu interagieren und mehrstufige Arbeitsabläufe zu automatisieren, was eine bedeutende Weiterentwicklung der Unternehmens-KI-Strategie von Microsoft darstellt.

Einführung heute für lizenzierte Kunden im UnternehmenGrenzprogrammZiel der Funktion ist es, Rechercheaufgaben zu bewältigen, die über einfache Websuchen hinausgehen, beispielsweise den Zugriff auf abonnementbasierte Branchenberichte oder das Sammeln von Daten auf interaktiven Websites.

Vom Denken zum Handeln: Wie „Computernutzung“ funktioniert

Diese neue Funktion wird durch eine ausgefeilte Architektur unterstützt, die dem Researcher-Agenten kontrollierten Zugriff auf einen sicheren, virtualisierten Computer ermöglicht.

Wenn ein Benutzer „Computernutzung“ aktiviert, stellt Copilot eine temporäre virtuelle Sandbox-Maschine bereit, die unter Windows 365 läuft. Die cloudbasierte Umgebung ist mit einem vollständigen Webbrowser und einem Befehlszeilenterminal ausgestattet, sodass der Agent ähnlich wie ein menschlicher Assistent agieren kann.

In dieser Sandbox-Umgebung kann der Agent einen visuellen Browser zum Navigieren durch Webschnittstellen, einen Textbrowser für eine schnellere Datenextraktion und das Terminal für erweiterte, codegesteuerte Szenarien nutzen.

Die Funktionalität erweitert die Fähigkeiten des Agenten nun weit über den ursprünglichen Umfang hinaus, der im Juni allgemein verfügbar wurde. Es kann jetzt auf Schaltflächen klicken, in Formulare tippen und durch geschützte Inhalte navigieren, für die Anmeldeinformationen erforderlich sind.

Beispielsweise könnte ein Benutzer den Forscher bitten, sich auf ein Kundentreffen vorzubereiten, indem er sich bei einer Social-Media-Site anmeldet, um aktuelle Nachrichten zu finden. Als Leitprinzip schlägt Microsoft vor: „Wenn eine Person die App nutzen kann, kann es auch der Agent.“

Um Transparenz und Benutzervertrauen zu gewährleisten, bietet das System eine „visuelle Gedankenkette“. Diese Schnittstelle zeigt die Benutzer-Screenshots und Terminalausgaben der Aktionen des Agenten in Echtzeit an, was eine ständige Überwachung ermöglicht und die Kontrolle des Benutzers über den gesamten Arbeitsablauf behält.

Sicherheit auf Unternehmensniveau in einer Sandbox-Umgebung

Für Unternehmenskunden bleibt die Sicherheit ein vorrangiges Anliegen, und Microsoft hat mehrere Schutzebenen integriert. Der Prozess läuft in einer kurzlebigen Sandbox und ist vollständig netzwerkisoliert vom Gerät des Benutzers und dem internen Netzwerk des Unternehmens.

Siehe auch:OpenAI führt den ChatGPT-Agenten ein, um komplexe Computeraufgaben zu automatisieren

Es werden niemals Benutzeranmeldeinformationen in diese Umgebung übertragen oder dort gespeichert. Wenn eine Anmeldung erforderlich ist, fordert Researcher den Benutzer auf, über eine sichere Bildschirmfreigabeverbindung die direkte Kontrolle über die Sitzung zu übernehmen und seine Anmeldeinformationen einzugeben.

Darüber hinaus wird der gesamte ausgehende Netzwerkverkehr aus der Sandbox über einen Proxy geleitet, der Sicherheitsklassifikatoren verwendet. Diese Klassifikatoren bestätigen, dass der Webzugriff des Agenten sicher und für die ursprüngliche Anfrage des Benutzers relevant ist, und tragen so zum Schutz vor potenziellen Jailbreak- oder Cross-Site-Scripting-Angriffen bei. Diese intelligente Automatisierung ist auf Ausfallsicherheit ausgelegt.

Laut Microsoft „passt es sich mithilfe integrierter Argumente in Echtzeit an, um Probleme selbstständig zu beheben, sodass die Arbeit ohne Unterbrechung fortgesetzt werden kann.“

Um das Risiko einer Datenexfiltration zu verringern, ist der Zugriff auf die internen Unternehmensdaten eines Benutzers, wie z. B. Dateien, Chats und E-Mails, standardmäßig deaktiviert, wenn die Computernutzung aktiviert wird. Benutzer können jedoch über ein neues Quellenmenü den Zugriff auf bestimmte Datenquellen gewähren, die für ihre Aufgabe erforderlich sind.

Administratoren haben außerdem eine detaillierte Kontrolle, mit der Möglichkeit, die Funktion für bestimmte Sicherheitsgruppen zu aktivieren und benutzerdefinierte Zulassungs- oder Ablehnungslisten für Websites zu erstellen.

Intelligentere Forschung, messbare Gewinne und Verfügbarkeit

Microsoft unterstützte den Start mitDaten aus führenden KI-Benchmarksdie komplexe Denk- und Browsing-Aufgaben messen. Beim BrowseComp-Benchmark schnitt „Researcher with Computer Use“ um 44 % besser ab als sein Vorgänger. Außerdem wurde eine Verbesserung um 6 % gegenüber dem GAIA-Benchmark erzielt, der die Fähigkeit einer KI testet, reale Datensätze zu finden und zu begründen. Bei einer anspruchsvollen GAIA-Aufgabe gelang es dem Agenten, einen relevanten Datensatz der Weltbank zu finden, ihn direkt über sein Terminal herunterzuladen und die Daten mithilfe von Python zu extrahieren und zu filtern, um eine verifizierte Antwort zu erhalten.

Diese Einführung ist ein wichtiger Teil von Microsofts umfassenderem Vorstoß in die sogenannte „agentische KI“, ein Trend, der darauf abzielt, Assistenten zu schaffen, die komplexe, mehrstufige Aufgaben autonom ausführen können. Es folgt auf die jüngsten Einführungen anderer spezialisierter Agenten für „Vibe Working“ in Excel und Word, die ebenfalls darauf abzielen, die Erstellung anspruchsvoller Dokumente anhand einfacher Eingabeaufforderungen zu automatisieren. Die Strategie unterstreicht auch die zunehmende Abhängigkeit von Microsoft von einem Multi-Modell-Ansatz, bei dem das Unternehmen die KI von Partnern wie Anthropic zusammen mit seinem Hauptpartner OpenAI nutzt, um das beste Tool für eine bestimmte Aufgabe auszuwählen.

Dieser strategische Schritt steht auch im Einklang mit einer gleichnamigen Funktion zur „Computernutzung“, die im April für die Low-Code-Plattform Copilot Studio von Microsoft angekündigt wurde. Die einheitliche Benennung und Funktionalität legen eine einheitliche Vision für die Entwicklung von KI-Agenten nahe, die in der gesamten digitalen Landschaft eingesetzt werden können, von der Unternehmensforschung bis hin zu maßgeschneiderten Geschäftsanwendungen. Durch den Aufbau dieser leistungsstarken Funktionen möchte Microsoft seine Position als unverzichtbarer KI-Infrastrukturanbieter festigen und über einfache Chat-Schnittstellen hinaus eine spürbare Automatisierung bieten.

Related Posts