Methodik

GSC + Logfiles: Wie ich Crawling-Daten wirklich auswerte

GSC + Logfiles: Wie ich Crawling-Daten wirklich auswerte
Autor
seo:geek
Veröffentlicht
22.01.2026

Warum GSC allein nicht reicht

Google Search Console ist das wichtigste kostenlose SEO-Tool, das Google uns gibt. Aber es zeigt nur einen Ausschnitt: Klicks, Impressionen, Positionen – aus der Perspektive des Nutzers.

Was GSC nicht zeigt: Wie oft Googlebot deine Seiten crawlt, welche Seiten ignoriert werden, wo der Crawler Fehler sieht.

Dafür braucht es Server-Logfiles – den unverblümten Blick darauf, was Google tatsächlich auf deiner Domain macht.

Datenquellen im Sberblick

DatenquelleWas du siehstLimitation
GSC PerformanceImpressionen, Klicks, CTR, PositionNur indexierte, geklickte Seiten
GSC URL-InspektionIndexierungsstatus einzelner URLsBatch-Analyse nicht möglich
GSC CoverageCrawling-Fehler aggregiertKeine Zeitverläufe
Server-LogfilesAlle Crawls: Bot, URL, Status, ZeitstempelMuss selbst analysiert werden

Logfiles: Wo finde ich sie?

Abhängig vom Hosting:

  • Apache: /var/log/apache2/access.log
  • Nginx: /var/log/nginx/access.log
  • Cloudflare Pages / CDN: Logfile-Export über Dashboard (kostenpflichtig)
  • Screaming Frog Log Analyzer: Akzeptiert alle gängigen Logfile-Formate

Wenn du keinen Zugriff auf den Server hast (z.B. bei Managed Hosting oder Cloudflare Pages ohne Enterprise-Plan): Logfiles sind leider nicht verfügbar. In diesem Fall ist GSC dein einziges crawling-spezifisches Tool.

Was ich in Logfiles suche

1. Crawl-Budget-Verschwendung

Googlebot crawlt deine Domain mit einem bestimmten Budget – wie oft pro Tag und Seite. Verschwendest du dieses Budget auf unwichtige Seiten, werden wichtige Seiten seltener gecrawlt.

Analyse: Im Logfile: Wie viele Crawls entfallen auf /tag/, /sort=, Paginierungsseiten wie /page/27/?

Wenn mehr als 30% der Crawls auf parametrisierte oder Low-Value-URLs entfallen: Problem.

2. Gecrawlt aber nicht indexiert

URLs, die Googlebot regelmäßig besucht, aber die in der GSC-Coverage-Ansicht als „gecrawlt – aktuell nicht indexiert“ erscheinen.

Das ist kein Fehler per se – aber ein Signal. Mögliche Ursachen:

  • Thin Content (zu wenig inhaltliche Substanz)
  • Duplicate Content (zu ähnlich zu anderen Pages)
  • Canonicalization-Problem
  • Low-Authority-Signal (keine internen oder externen Links)

3. Crawl-Frequenz als Qualitätssignal

Seiten, die Google als wertvoll einstuft, crawlt es häufiger. Wenn deine wichtigsten Seiten nur einmal pro Woche gecrawlt werden, ist das ein Indiz für mangelnde wahrgenommene Relevanz.

Benchmark: Eine gut gepflegte, aktive Seite mit gutem Content sollte alle 2-7 Tage gecrawlt werden.

Der kombinierte Workflow

Das Beste aus beiden Welten:

  1. Logfiles → Screaming Frog Log Analyzer: Alle Crawls der letzten 30 Tage importieren. Filtern: Statuscode 200 (okay), Statuscode 404 (nicht gefunden), Statuscode 301 (Redirect).

  2. GSC Coverage exportieren: URL-Listen für „gecrawlt, nicht indexiert“ und „indexiert“ exportieren.

  3. Match via Google Sheets: Beide Listen vergleichen. URLs, die gecrawlt aber nicht indexiert werden, priorisieren.

  4. Entscheidungsmatrix:

GecrawltIndexiertHandlung
HäufigJaAlles gut
HäufigNeinContent verbessern oder via noindex bereinigen
SeltenJaInterne Links stärken
SeltenNeinSeite evaluieren (löschen oder verbessern?)

Praxisbeispiel: Crawl-Budget-Problem gelöst

Auf einer Domain mit 1.400 URLs: 38% aller Crawls entfielen auf Facettierungs-URLs des Shop-Systems (?farbe=&groesse=&sort=beliebt).

Lösung: <meta name="robots" content="noindex, follow"> auf alle parametrisierten URLs. Canonical auf die Haupt-Kategorie-URL.

Ergebnis nach 60 Tagen: Indexierungsrate der wichtigen Produkt- und Kategorieseiten stieg von 61% auf 84%.

Tools, die ich empfehle

  • Screaming Frog Log Analyzer – Beste Visualisierung, direkte Filterung nach Bot, URL-Pattern, Statuscode
  • GoAccess – Open Source, läuft direkt auf dem Server, kein Upload notwendig
  • Google Sheets – Für alle kombinierten Auswertungen (GSC-Export + Log-Daten)

Weiterführende Ressourcen

// AUTOR
s
seo:geek
SEO-Analyst & Data Engineer

Unabhängige SEO-Analysen auf Basis eigener Messungen. Keine Beratung, keine Affiliate-Links – nur Daten.