Wie AI100 die Markensichtbarkeit in KI misst
Was wir messen
AI100 misst, wie natürlich eine Marke in den neutralen KI-Antworten innerhalb ihrer Kategorie und Region erscheint. Die Methodik trennt die Hauptbewertungsschicht (neutrale Szenarien) von der diagnostischen Schicht (Abfragen mit Markennamen) und verwendet eine nichtlineare Skala von 0 bis 100.
Messeinheit: eine Modellantwort auf ein standardisiertes Fragenszenario.
Wie ein Durchlauf funktioniert
1. Vorbereitung des Forschungsrahmens
Zuerst lesen wir die Website, identifizieren die Kategorie und klären, mit welchem Marktumfeld die Marke sinnvoll verglichen werden kann. Der Nutzer wählt eine Sichtbarkeitssprache (Visibility Language) — die Sprache, in der dem Modell die Fragen gestellt werden. Dies ist ein wichtiger Parameter: dieselbe Marke kann je nach Sprache der Prompts ein unterschiedliches Wettbewerbsumfeld vorfinden. Das Modell bildet für jede Sprache ein eigenes assoziatives Feld: Marken, die in einer Sprache dominieren, können in einer anderen ihre Position an andere Wettbewerber abgeben. Für internationale Marken wird eine separate Studie für jede Zielmarktsprache empfohlen.
2. Aufbau des Fragenkorpus
Dann wird das Set von Szenarien zusammengestellt: einige prüfen das natürliche Erscheinen der Marke, andere helfen, die Reputation und den Charakter der Modellantwort zu verstehen.
3. Berechnung des Hauptscores
Der Hauptscore basiert ausschließlich auf neutralen Szenarien, in denen die Marke ihren Platz durch die Modellantwort selbst verdienen muss. Separat werden der diagnostische Score (nach direkten Nennungen), die Web-Verstärkung (Differenz zwischen Gedächtnis- und Suchantwort) und das Konfidenzintervall berechnet.
4. Erklärung und Bericht
Abschließend übersetzen wir das Gesamtset der Antworten in einen lesbaren Bericht: den Endscore, seine Stabilität, die Stärken der Marke und die Wachstumszonen.
Wie der Score berechnet und gelesen wird
Der Sprung von schwacher Sichtbarkeit zu einer glaubwürdigen Mittelschicht wirkt dramatisch: Die Marke existiert für das Modell kaum oder erscheint bereits in einem Teil der Antworten. Der Sprung von starker Sichtbarkeit zu nahezu vollständiger Dominanz ist schwieriger. Deshalb verwenden wir eine logarithmische Transformation.
Korpus und Bewertung
Hauptschicht
| Familie | Was sie prüft |
|---|---|
| Expertise | Erkennt das Modell Autoritätssignale im Bereich der Marke? |
| Optionsvergleich | Besteht die Marke in vergleichenden Fragen ohne Namensnennung? |
| Kundenanforderungen | Question family inside the core corpus. |
| Customer Expert | Question family inside the core corpus. |
| Kunden-Exploration | Question family inside the core corpus. |
| Aufgabe des Kunden | Question family inside the core corpus. |
| Customer Migration | Question family inside the core corpus. |
| Customer Pain | Question family inside the core corpus. |
| Kundenkompromisse | Question family inside the core corpus. |
| Lösungssuche | Nennt das Modell die Marke, wenn der Nutzer gerade erst mit der Suche beginnt? |
| Rankings nach Kategorie | Wie hoch platziert das Modell die Marke in einem expliziten Kategorieranking? |
| Engere Auswahl | Schafft es die Marke in die engere Auswahl, wenn der Nutzer bereit ist zu vergleichen? |
| Vertrauen | Assoziiert das Modell die Marke mit Zuverlässigkeit und guter Wahl? |
Gewichtungen des Hauptscores
| Metrik | Was sie zeigt | Gewicht |
|---|---|---|
| Erwähnungsrate | Wie häufig die Marke in Antworten erscheint | 28.0% |
| Top-3-Anteil | Wie häufig die Marke im oberen Teil der Antwort steht | 14.0% |
| Top-1-Anteil | Wie häufig die Marke als Erste genannt wird | 10.0% |
| Durchschnittsposition | Durchschnittliche Position der Marke in den Antworten | 15.0% |
| Szenario-Abdeckung | In welchem Anteil der Szenarien die Marke erscheint | 18.0% |
| Antwortanteil | Wie häufig die Marke im Antworttext erwähnt wird | 10.0% |
| Textanteil | Welcher Anteil des Antworttextes der Marke gewidmet ist | 5.0% |
Diagnostische Schicht
Diese Schicht ersetzt nicht den Hauptscore. Sie erklärt, was passiert, wenn die Marke bereits genannt, direkt verglichen oder im Hinblick auf ihre Reputation diskutiert wird.
| Familie | Was sie prüft |
|---|---|
| Alternative Optionen | Wird die Marke als Alternative zu einer bereits genannten Lösung erinnert? |
| Markenreputation | Wie beschreibt das Modell die Marke, wenn der Name bereits gegeben ist? |
| Direkter Vergleich | Was passiert bei einem direkten Vergleich mit einem Wettbewerber? |
Gewichtungen des diagnostischen Scores
| Metrik | Was sie zeigt | Gewicht |
|---|---|---|
| Empfehlungsrate | Anteil der Antworten mit expliziter Markenempfehlung | 30.0% |
| Empfehlungsstärke | Wie überzeugend das Modell die Empfehlung formuliert | 25.0% |
| Zentralität | Ob die Marke das Hauptthema der Antwort ist | 20.0% |
| Positiver Ton | Anteil der Antworten mit explizit positivem Ton | 15.0% |
| Argumentationsqualität | Ob das Modell die Empfehlung mit Argumenten stützt | 10.0% |
Umfang und Einschränkungen
AI100 stellt sechs Modellen aus vier unabhängigen Familien denselben Szenarien-Korpus: GPT-5.3 chat und GPT-5.4 mini (OpenAI), Gemini 2.5 Pro und Gemini 2.5 Flash (Google), Grok 4.1 Fast (xAI) sowie DeepSeek V3.2. Jedes Modell antwortet in zwei Modi: ausschließlich auf Basis seines internen Wissens und mit Unterstützung durch Webquellen. Der Endscore aggregiert die Antworten aller sechs Modelle — dies reduziert die Abhängigkeit von den Eigenheiten eines einzelnen Modells.
Diese sechs Modelle decken etwa 93 % der kostenlosen KI-Assistenten-Nutzer weltweit ab. Der Pool ist fixiert und für alle Kunden identisch: jeder erhält dieselbe modellübergreifende Messung, sodass Ergebnisse zwischen Marken direkt vergleichbar sind. Microsoft Copilot wird automatisch über die OpenAI-Slots abgedeckt (Copilot verwendet GPT-5.x in der Produktion).
Was AI100 misst
- Wie natürlich die Marke in neutralen KI-Antworten innerhalb ihrer Kategorie erscheint.
- Die Position der Marke in der Antwort und ob Webquellen sie verstärken.
- In welchen Fragenfamilien die Marke verschwindet und wo sie stärker als die Wettbewerber erscheint.
Was AI100 nicht misst
- Umsatz, Konversion, Stärke des Marketingteams oder Produktqualität an sich.
- Sämtliche existierende Sprachmodelle. Der AI100-Pool umfasst sechs fixierte Modelle, die rund 93 % der kostenlosen KI-Assistenten-Nutzer weltweit abdecken — genug für verlässliche Messungen der Massenmarkt-Sichtbarkeit einer Marke, aber nicht für Aussagen über spezifische Nischenmodelle.
- Eine absolute Wahrheit über den Markt. Jede Messung hängt von Datum, Sprache, Kategorie und Fragenkatalog ab.
Methodik-Historie und Roadmap
Die AI100-Methodik entwickelt sich in Versionen. Hier zeigen wir, wie sich die Formel verändert hat und was als Nächstes geplant ist.
Änderungsprotokoll
| Version | Datum | Was sich geändert hat |
|---|---|---|
| v2026.04 | April 2026 | Hauptformel auf 7 Metriken umgestellt; Qualitätsreserve in der Opportunity-Map neu berechnet. |
| v2026.03 | März 2026 | Diagnostische Ebene über Marken-Anfragen als separate Bewertung eingeführt. |
| v2026.02 | Februar 2026 | Umstellung auf einen Pool aus sechs unabhängigen Modellen verschiedener Familien; Cross-Model-Analyse eingeführt. |
| v2026.01 | Januar 2026 | Bootstrap-Iterationen für das Konfidenzintervall von 100 auf 300 erhöht. |
Roadmap
| Zeitraum | Fokus |
|---|---|
| Q2 2026 |
|
| Q3 2026 |
|
| Später |
|
Möchten Sie sehen, wie das für eine echte Marke aussieht?
Beispielbericht ansehen