GSC + Logfiles: Wie ich Crawling-Daten wirklich auswerte
Warum GSC allein nicht reicht
Google Search Console ist das wichtigste kostenlose SEO-Tool, das Google uns gibt. Aber es zeigt nur einen Ausschnitt: Klicks, Impressionen, Positionen – aus der Perspektive des Nutzers.
Was GSC nicht zeigt: Wie oft Googlebot deine Seiten crawlt, welche Seiten ignoriert werden, wo der Crawler Fehler sieht.
Dafür braucht es Server-Logfiles – den unverblümten Blick darauf, was Google tatsächlich auf deiner Domain macht.
Datenquellen im Sberblick
| Datenquelle | Was du siehst | Limitation |
|---|---|---|
| GSC Performance | Impressionen, Klicks, CTR, Position | Nur indexierte, geklickte Seiten |
| GSC URL-Inspektion | Indexierungsstatus einzelner URLs | Batch-Analyse nicht möglich |
| GSC Coverage | Crawling-Fehler aggregiert | Keine Zeitverläufe |
| Server-Logfiles | Alle Crawls: Bot, URL, Status, Zeitstempel | Muss selbst analysiert werden |
Logfiles: Wo finde ich sie?
Abhängig vom Hosting:
- Apache:
/var/log/apache2/access.log - Nginx:
/var/log/nginx/access.log - Cloudflare Pages / CDN: Logfile-Export über Dashboard (kostenpflichtig)
- Screaming Frog Log Analyzer: Akzeptiert alle gängigen Logfile-Formate
Wenn du keinen Zugriff auf den Server hast (z.B. bei Managed Hosting oder Cloudflare Pages ohne Enterprise-Plan): Logfiles sind leider nicht verfügbar. In diesem Fall ist GSC dein einziges crawling-spezifisches Tool.
Was ich in Logfiles suche
1. Crawl-Budget-Verschwendung
Googlebot crawlt deine Domain mit einem bestimmten Budget – wie oft pro Tag und Seite. Verschwendest du dieses Budget auf unwichtige Seiten, werden wichtige Seiten seltener gecrawlt.
Analyse: Im Logfile: Wie viele Crawls entfallen auf /tag/, /sort=, Paginierungsseiten wie /page/27/?
Wenn mehr als 30% der Crawls auf parametrisierte oder Low-Value-URLs entfallen: Problem.
2. Gecrawlt aber nicht indexiert
URLs, die Googlebot regelmäßig besucht, aber die in der GSC-Coverage-Ansicht als „gecrawlt – aktuell nicht indexiert“ erscheinen.
Das ist kein Fehler per se – aber ein Signal. Mögliche Ursachen:
- Thin Content (zu wenig inhaltliche Substanz)
- Duplicate Content (zu ähnlich zu anderen Pages)
- Canonicalization-Problem
- Low-Authority-Signal (keine internen oder externen Links)
3. Crawl-Frequenz als Qualitätssignal
Seiten, die Google als wertvoll einstuft, crawlt es häufiger. Wenn deine wichtigsten Seiten nur einmal pro Woche gecrawlt werden, ist das ein Indiz für mangelnde wahrgenommene Relevanz.
Benchmark: Eine gut gepflegte, aktive Seite mit gutem Content sollte alle 2-7 Tage gecrawlt werden.
Der kombinierte Workflow
Das Beste aus beiden Welten:
-
Logfiles → Screaming Frog Log Analyzer: Alle Crawls der letzten 30 Tage importieren. Filtern: Statuscode 200 (okay), Statuscode 404 (nicht gefunden), Statuscode 301 (Redirect).
-
GSC Coverage exportieren: URL-Listen für „gecrawlt, nicht indexiert“ und „indexiert“ exportieren.
-
Match via Google Sheets: Beide Listen vergleichen. URLs, die gecrawlt aber nicht indexiert werden, priorisieren.
-
Entscheidungsmatrix:
| Gecrawlt | Indexiert | Handlung |
|---|---|---|
| Häufig | Ja | Alles gut |
| Häufig | Nein | Content verbessern oder via noindex bereinigen |
| Selten | Ja | Interne Links stärken |
| Selten | Nein | Seite evaluieren (löschen oder verbessern?) |
Praxisbeispiel: Crawl-Budget-Problem gelöst
Auf einer Domain mit 1.400 URLs: 38% aller Crawls entfielen auf Facettierungs-URLs des Shop-Systems (?farbe=&groesse=&sort=beliebt).
Lösung: <meta name="robots" content="noindex, follow"> auf alle parametrisierten URLs. Canonical auf die Haupt-Kategorie-URL.
Ergebnis nach 60 Tagen: Indexierungsrate der wichtigen Produkt- und Kategorieseiten stieg von 61% auf 84%.
Tools, die ich empfehle
- Screaming Frog Log Analyzer – Beste Visualisierung, direkte Filterung nach Bot, URL-Pattern, Statuscode
- GoAccess – Open Source, läuft direkt auf dem Server, kein Upload notwendig
- Google Sheets – Für alle kombinierten Auswertungen (GSC-Export + Log-Daten)