Methodik

GSC + Logfiles: Wie ich Crawling-Daten wirklich auswerte

Autor

seo:geek

Veröffentlicht

22.01.2026

Warum GSC allein nicht reicht

Google Search Console ist das wichtigste kostenlose SEO-Tool, das Google uns gibt. Aber es zeigt nur einen Ausschnitt: Klicks, Impressionen, Positionen – aus der Perspektive des Nutzers.

Was GSC nicht zeigt: Wie oft Googlebot deine Seiten crawlt, welche Seiten ignoriert werden, wo der Crawler Fehler sieht.

Dafür braucht es Server-Logfiles – den unverblümten Blick darauf, was Google tatsächlich auf deiner Domain macht.

Datenquellen im Sberblick

Datenquelle	Was du siehst	Limitation
GSC Performance	Impressionen, Klicks, CTR, Position	Nur indexierte, geklickte Seiten
GSC URL-Inspektion	Indexierungsstatus einzelner URLs	Batch-Analyse nicht möglich
GSC Coverage	Crawling-Fehler aggregiert	Keine Zeitverläufe
Server-Logfiles	Alle Crawls: Bot, URL, Status, Zeitstempel	Muss selbst analysiert werden

Logfiles: Wo finde ich sie?

Abhängig vom Hosting:

Apache: /var/log/apache2/access.log
Nginx: /var/log/nginx/access.log
Cloudflare Pages / CDN: Logfile-Export über Dashboard (kostenpflichtig)
Screaming Frog Log Analyzer: Akzeptiert alle gängigen Logfile-Formate

Wenn du keinen Zugriff auf den Server hast (z.B. bei Managed Hosting oder Cloudflare Pages ohne Enterprise-Plan): Logfiles sind leider nicht verfügbar. In diesem Fall ist GSC dein einziges crawling-spezifisches Tool.

Was ich in Logfiles suche

1. Crawl-Budget-Verschwendung

Googlebot crawlt deine Domain mit einem bestimmten Budget – wie oft pro Tag und Seite. Verschwendest du dieses Budget auf unwichtige Seiten, werden wichtige Seiten seltener gecrawlt.

Analyse: Im Logfile: Wie viele Crawls entfallen auf /tag/, /sort=, Paginierungsseiten wie /page/27/?

Wenn mehr als 30% der Crawls auf parametrisierte oder Low-Value-URLs entfallen: Problem.

2. Gecrawlt aber nicht indexiert

URLs, die Googlebot regelmäßig besucht, aber die in der GSC-Coverage-Ansicht als „gecrawlt – aktuell nicht indexiert“ erscheinen.

Das ist kein Fehler per se – aber ein Signal. Mögliche Ursachen:

Thin Content (zu wenig inhaltliche Substanz)
Duplicate Content (zu ähnlich zu anderen Pages)
Canonicalization-Problem
Low-Authority-Signal (keine internen oder externen Links)

3. Crawl-Frequenz als Qualitätssignal

Seiten, die Google als wertvoll einstuft, crawlt es häufiger. Wenn deine wichtigsten Seiten nur einmal pro Woche gecrawlt werden, ist das ein Indiz für mangelnde wahrgenommene Relevanz.

Benchmark: Eine gut gepflegte, aktive Seite mit gutem Content sollte alle 2-7 Tage gecrawlt werden.

Der kombinierte Workflow

Das Beste aus beiden Welten:

Logfiles → Screaming Frog Log Analyzer: Alle Crawls der letzten 30 Tage importieren. Filtern: Statuscode 200 (okay), Statuscode 404 (nicht gefunden), Statuscode 301 (Redirect).
GSC Coverage exportieren: URL-Listen für „gecrawlt, nicht indexiert“ und „indexiert“ exportieren.
Match via Google Sheets: Beide Listen vergleichen. URLs, die gecrawlt aber nicht indexiert werden, priorisieren.
Entscheidungsmatrix:

Gecrawlt	Indexiert	Handlung
Häufig	Ja	Alles gut
Häufig	Nein	Content verbessern oder via `noindex` bereinigen
Selten	Ja	Interne Links stärken
Selten	Nein	Seite evaluieren (löschen oder verbessern?)

Praxisbeispiel: Crawl-Budget-Problem gelöst

Auf einer Domain mit 1.400 URLs: 38% aller Crawls entfielen auf Facettierungs-URLs des Shop-Systems (?farbe=&groesse=&sort=beliebt).

Lösung: <meta name="robots" content="noindex, follow"> auf alle parametrisierten URLs. Canonical auf die Haupt-Kategorie-URL.

Ergebnis nach 60 Tagen: Indexierungsrate der wichtigen Produkt- und Kategorieseiten stieg von 61% auf 84%.

Tools, die ich empfehle

Screaming Frog Log Analyzer – Beste Visualisierung, direkte Filterung nach Bot, URL-Pattern, Statuscode
GoAccess – Open Source, läuft direkt auf dem Server, kein Upload notwendig
Google Sheets – Für alle kombinierten Auswertungen (GSC-Export + Log-Daten)

Weiterführende Ressourcen

// AUTOR

seo:geek

SEO-Analyst & Data Engineer

Unabhängige SEO-Analysen auf Basis eigener Messungen. Keine Beratung, keine Affiliate-Links – nur Daten.