OpenAI hat mit BrowseComp einen neuen Benchmark vorgestellt, der die Fähigkeiten von KI-Agenten bei der Recherche komplexer und schwer auffindbarer Informationen im Internet testet. Während bestehende Benchmarks wie SimpleQA bereits von aktuellen Modellen gemeistert werden, setzt BrowseComp neue Maßstäbe in Bezug auf Schwierigkeit und Relevanz für reale Anwendungen.
Was ist BrowseComp?
BrowseComp, eine Abkürzung für „Browsing Competition“, besteht aus 1.266 sorgfältig konzipierten Fragen, die darauf abzielen, die Ausdauer und Kreativität von KI-Agenten bei der Web-Recherche zu testen. Jede Frage ist so gestaltet, dass sie nicht durch einfache Suchanfragen beantwortet werden kann, sondern eine tiefgehende und strategische Recherche erfordert. Die Antworten sind kurz und eindeutig, was eine einfache Verifizierung ermöglicht.
Methodik: Schwierige Fragen, einfache Verifizierung
Die Fragen in BrowseComp wurden von menschlichen Trainern erstellt, die sicherstellten, dass die Antworten nicht leicht über Suchmaschinen auffindbar sind. Dazu wurden mehrere Kriterien angewendet:
- Die Fragen sollten nicht von bestehenden Modellen wie GPT-4o oder OpenAI o1 beantwortet werden können.
- Die Antworten sollten nicht auf den ersten Seiten von Suchmaschinenergebnissen erscheinen.
- Die Fragen sollten so gestaltet sein, dass sie für Menschen innerhalb eines bestimmten Zeitrahmens schwer zu beantworten sind.
Diese Methodik stellt sicher, dass BrowseComp eine echte Herausforderung für KI-Agenten darstellt und ihre Fähigkeit testet, komplexe Informationen zu recherchieren und zu verifizieren.
Leistung aktueller Modelle
Die Ergebnisse von BrowseComp zeigen, dass selbst fortschrittliche Modelle Schwierigkeiten haben, die gestellten Aufgaben zu bewältigen:
- GPT-4o ohne Browsing-Funktion erreichte eine Genauigkeit von 0,6 %.
- GPT-4o mit Browsing-Funktion erzielte 1,9 %.
- OpenAI o1 ohne Browsing-Funktion kam auf 9,9 %.
- Ein speziell trainiertes Modell namens Deep Research erreichte 51,5 %.
Fazit
Mit BrowseComp hat OpenAI einen wichtigen Schritt unternommen, um die Fähigkeiten von KI-Agenten bei der Web-Recherche zu bewerten und zu verbessern. Der Benchmark stellt eine anspruchsvolle Herausforderung dar, die über einfache Informationsabfragen hinausgeht und die Entwicklung von KI-Systemen fördert, die in der Lage sind, komplexe und schwer auffindbare Informationen effektiv zu recherchieren und zu verifizieren.
KI Offensive 2026:
Wir machen dich KI-fit
Häufige Fragen (FAQ) zum Thema BrowseComp
BrowseComp zielt darauf ab, die Fähigkeit von KI-Agenten zu bewerten, komplexe und schwer auffindbare Informationen im Internet zu recherchieren und zu verifizieren.
Im Gegensatz zu anderen Benchmarks konzentriert sich BrowseComp auf Fragen, die nicht durch einfache Suchanfragen beantwortet werden können, sondern eine tiefgehende und strategische Recherche erfordern.
Unter anderem wurden GPT-4o (mit und ohne Browsing-Funktion), OpenAI o1 und ein speziell trainiertes Modell namens Deep Research getestet.


Emerode Kimonawoko