Duplicate Content Check: Website auf doppelte Inhalte prüfen
Duplicate Content führt zu Verlusten an Sichtbarkeit und Traffic im Internet. Wer also bei Google ganz oben mitmischen will, sollte folgende Fehlerquellen vermeiden und seine Website sauber halten.
-
Was ist Duplicate Content?
Was ist interner Duplicate Content?
Was ist externer Duplicate Content?
Wie entsteht Duplicate Content?
Ab wann Duplicate Content gegeben ist
Wie erkennt Google Duplicate Content?
Bestraft Google Websites mit doppelten Inhalten?
Duplicate Content Check: interne Doppelte Inhalte finden
Fehlerquellen & Lösungen
Startseite
Kategorien & TAGs
Produkt-Varianten
Filterfunktionen
interne Suchfunktionen
Sprach-Versionen
Domain-Umzug
Google Tipps: Doppelte Inhalte vermeiden
Duplicate Content ist häufig
Es gibt wohl kaum einen Website-Betreiber, der sich noch nicht mit dem Begriff Duplicate Content auseinandersetzen musste. Schätzungen zufolge sind satte 30 % des gesamten Web-Contents Duplikate. Vor allem Online-Shops und große Websites haben häufig mit diesem Problem zu kämpfen.
Vgl. auch: 12 häufige SEO-Fehler + Lösungen
Was ist Duplicate Content?
Duplicate Content, zu Deutsch „Doppelter oder Duplizierter Inhalt“, beschreibt gleiche oder fast identische Inhalte, die unter verschiedenen URLs existieren. Der Umgang mit und die Behebung von Doppelten Inhalten zählt mitunter zu den Kernaufgaben der Suchmaschinenoptimierung (insbesondere der OnPage-Optimierung).
Zudem lässt sich noch einmal zwischen internem Duplicate Content und externem Duplicate unterscheiden:
Was ist interner Duplicate Content?
Das sind gleiche oder sehr ähnliche Inhalte, die sich unter verschiedenen URLs innerhalb ein und derselben Domain abrufen lassen.
Das macht diese Art von Duplicate Content kontrollierbarer.
Was ist externer Duplicate Content?
Hierbei handelt es sich um Doppelte Inhalte, die auf verschiedenen Websites oder externen Domains existieren.
Die gibt es mittlerweile häufig und sie werden von Google ignoriert.
Wie entsteht Duplicate Content?
Duplicate Content kommt häufig als interne Doppelung vor. In den meisten Fällen findet sich die Ursache im verwendeten CMS, das die Inhalte strukturiert und auf diverse URLs verteilt. Doch neben technischen Problemen können auch andere Gründe dafür verantwortlich sein.
Die häufigsten Fehlerquellen sind zum Beispiel:
Website ist mit und ohne www abrufbar
Website ist ohne (http) und mit SSL-Verschlüsselung (https) erreichbar
Archivierung von Seiten
interne Suchergebnis-Seiten
Seiten oder Beiträge, die zu mehreren Kategorien oder TAGs gehören
Gleiche oder sehr ähnliche Produktbeschreibungen
mobile Website-Versionen
Natürlich gibt es noch jede Menge weiterer Ursachen wie Kommentare auf Blogs, paginierte Seiten in Online-Shops, Druckversionen und so weiter und so fort. Google erkennt mit hoher Zuverlässigkeit identische und sehr ähnliche Textbausteine. In vielen Fällen sind sie kein Problem, in anderen stören sie das Ranking deiner Website.
Duplicate Content: ab wann gelten Inhalte als Duplikate?
In den meisten Fällen geht es um größere Textblöcke, nicht einzelne Sätze oder Wörter. Auch wiederkehrende Textbausteine sind darunter zu verstehen.
Zitate oder zitierte Textpassagen werden von Google normalerweise nicht als Ducplicate Content bewertet. Bei Zitaten ist es trotzdem ratsam, diese im Quellcode entsprechend zu kennzeichnen:
<blockquote>Zitat<cite>Autorenname bzw. Quellangabe</cite></blockquote>
Doch was ist mit anderen statischen Textbausteinen, die unter mehreren URLs existieren? Zum Beispiel Geschäftsinformationen oder Newsletter-Formulare im Footer. Ja, auch diese Elemente gelten als Duplicate Content – sind aber kein Problem. Denn nur wenn der Duplicate Content nach Manipulation stinkt, spricht Google ein Machtwort.
Wie erkennt Google doppelte Inhalte?
Eine häufig gestellte Frage in der SEO-Szene: Wie erkennt Google, was der Original-Content ist und welches das Duplikat? Hier können wir nur spekulieren: Vermutlich arbeitet Google mit Shingle Algorithmen, eine übliche Methode zur Identifizierung von Duplicate Content.
Dazu wird der komplette Online-Text in einzelne Shingles (Schindeln) unterteilt und verglichen. Oft handelt es sich dabei um Level-3-Shingles, also 3-Wort-Pakete.
Beispiel für Shingles
Als Beispiel nehmen wir die Sätze „hochwertige Jacken für Damen in braun“ und „stylische Jacken für Damen in beige“.
1. Beispielsatz: hochwertige Jacken für Damen in Braun
hochwertige Jacken für
Jacken für Damen
für Damen in
Damen in Braun
2. Beispielsatz: stylische Jacken für Damen in Beige
stylische Jacken für
Jacken für Damen
für Damen in
Damen in Beige
Jetzt zeigt sich, dass 2 von 4 Shingles absolut übereinstimmen. Die Sätze gleichen sich damit zu 50 %. Das ist jetzt natürlich ein sehr vereinfachtes Beispiel, doch so ungefähr funktioniert das Prinzip.
Bestraft Google Websites mit doppelten Inhalten?
Google straft nach eigener Aussage internen Duplicate Content nicht mit seinen gefürchteten Penaltys ab (außer es stinkt nach Manipulation und Betrug). Allerdings erschweren doppelte Inhalte dem Google Bot das Crawlen deiner Seiten und setzen nicht die gewünschten Signale.
Die Suchmaschine will dem User schließlich das bestmögliche Ergebnis präsentieren. Für die Maschine ergibt es keinen Sinn, ein und denselben Inhalt gleich mehrmals unter den Top 10 auf der Suchergebnisseite (SERP) auszuspielen. Der Text scheint nämlich nicht einzigartig zu sein, wenn er gleich mehrmals indexiert ist.
Darüber hinaus verfügt der Google Crawler nur über ein begrenztes Crawling-Kontingent: Duplicate Content könnte dafür sorgen, dass andere, wichtigere Seiten deiner Website nicht indexiert werden, weil das Crawling-Budget durch die doppelten Inhalte schon aufgebraucht ist.
Im schlimmsten Fall kann es tatsächlich zu einer Google Penalty kommen. Nämlich dann, wenn Google hinter den doppelten Inhalten einen Manipulationsversuch sieht.
Vgl. auch SEO-Texten / SEO-Writing Basics
Duplicate Content Check
Interne doppelte Inhalte finden
Internen Duplicate Content kannst du mithilfe von Tools schnell ermitteln. Ist Duplicate Content vorhanden, verschenkst du wertvolles Potenzial deiner Website, das du anderweitig profitabler nutzen könntest.
Für ein gutes Ranking ist es daher notwendig, Duplicate Content ausfindig zu machen, zu beheben und die technischen Bedingungen zu schaffen, um Duplikate von vorneherein zu vermeiden.
Empfehlenswert ist zum Beispiel Siteliner. Damit erhältst du eine genaue Auflistung bezüglich: prozentuale Übereinstimmung von Seiteninhalten, Seitenanzahl mit ähnlichem Content, Relevanz der Seite bei Google, übereinstimmende Begriffe etc.). Alternativ dazu kannst du natürlich auch den Screaming Frog bemühen.
Und dann?
Finden sich Seiten mit einer hohen Übereinstimmung, solltest du dringend den Inhalt überprüfen und analysieren. Das aber auch nur, wenn es sich um eine wichtige Seite innerhalb deines Internetauftritts handelt. Sind dagegen Kategorie oder Archiv-Seiten betroffen, brauchst du dir keine Sorgen zu machen. Das passiert häufig. Abhilfe schaffen hier bestimmte Einträge in den Meta-Daten (mehr dazu weiter unten).
Fehlerquellen & Lösungen für doppelte Inhalte
Die häufigsten Duplicate Content-Fallen
Im Grunde soll dir dieser Beitrag verdeutlichen, dass es verschiedene Wege gibt, Duplicate Content zu beheben. Eben je nachdem wodurch er bedingt ist. Im Folgenden findest du daher typische Probleme, durch die Duplicate Content entsteht, und geeignete Lösungswege.
1) Startseite lässt sich über verschiedene URLs abrufen
Doppelte Startseiten sind tatsächlich ein häufiges Phänomen bei Online-Auftritten. Gar nicht gut, denn gerade deine Startseite sollte am besten bei Google ranken und zahlreiche Backlinks besitzen.
a) Wurde die Startseite mehrmals indexiert, findest du sie zum Beispiel unter
http://muster.de
http://www.muster.de
b) Das gleiche Prinzip taucht beim Einbinden von SSL-Zertifikaten auf, oft existiert die Website dann
ungesichert mit http
gesichert mit https
c) Ebenso lässt sich die Domain oft mit Trailing-Slash am Ende und ohne abrufen:
https://muster.de
https://muster.de/
LÖSUNG: Domain-Umleitung via .htaccess-Datei
a) & b) » Du musst dich nun für eine Version entscheiden. Meistens fällt die Wahl auf eine URL mit www, ganz einfach, weil die User diesem Präfix aus Gewohnheit mehr Vertrauen schenken.
Möchtest du also auf die www-Domain umleiten, sieht das im Quellcode so aus:
RewriteEngine On
RewriteCond %{HTTP_HOST} !musterdomain.de$
RewriteRule ^(.*)$ www.musterdomain.de/$1 [L,R=301,QSA]
Alternativ nimmst du die Umleitung in der Google Search Console vor:
Property auswählen
aufs Zahnrad-Symbol klicken
Website-Einstellungen aufrufen
bevorzugte Domain festlegen
Domain-Umleitung mit der Google Search Console
c) Um Duplicate Content durch Trailing-Slashes zu beheben, richtest du eine 301-Weiterleitung permanent für die Version mit Slash in der .htacess-Datei ein.
RewriteEngine On
RewriteCond %{REQUEST_URI} /[^/.]+$
RewriteRule ^(.+[^/]$ %{REQUEST_URI}/ [R=301,L]
2) Gleicher Inhalt mehrfach kategorisiert oder getaggt
Dieser Umstand betrifft nicht nur Online-Shops, sondern auch ganze Blogs. Verständlicherweise soll das Produkt oder der Artikel unter verschiedenen Kategorien bzw. Schlagworten gefunden werden. Das Ergebnis ist jedoch meist Duplicate Content.
a) Beispiel Online-Shop:
Die sündhaft teure Diesel-Jeans passt zur Kategorie damen/jeans/diesel und marken/jeans/diesel. Daraus entsteht:
www.must.de/damen/jeans/diesel
www.muster.de/marken/jeans/diesel
b) Beispiel Blog-Artikel:
Ein Text über „Damenschuhe für den Herbst“ kann mit den TAGs #mode und #schuhtrends versehen werden. Und das kommt dabei heraus:
www.muster.de/blog/mode/damenschuhe-herbst
www.muster.de/blog/schuhtrends/damenschuhe-herbst
LÖSUNG: Canonical-Tag setzen
Mit einem Canonical-Linkverweis kannst du Inhalte kennzeichnen, die im thematischen Verhältnis zu einer Originalquelle stehen. Auf den Punkt gebraucht: Der TAG zeigt Google, auf welcher Seite sich das Original befindet. Und nur diese Seite wird dann indexiert.
Nehmen wir also das Beispiel von oben mit der Diesel Jeans: hier musst du folgenden TAG im Header-Code der Seite unterbringen, die nicht das Original ist (hier: /schuhtrends/damenschuhe-herbst):
<link rel="canonical" href="http://www.musterdomain.de/mode/damenschuhe-herbst"/>
3) Verschiedene Produktversionen bzgl. Farbe, Größe, Form etc.
Nicht selten verkaufen Online-Shops ihre Produkte in verschiedenen Farben und Größen. Dabei nutzen sie den gleichen Produkttext und die selben Meta-TAGs (Title & Description). Das Problem ist nur, jede Produktvariante hat eine eigene URL.
LÖSUNG: Priorisierung & nofollow-Attribut
Ideal wäre es natürlich, individuelle Produktbeschreibungen anzufertigen. Allerdings ist das aufgrund zeitlicher und kostenspezifischer Aspekte meist unmöglich. Es empfiehlt sich daher, Prioritäten zu setzen:
Welche Artikel bringen den meisten Umsatz? Welche Online-Texte sind die relevantesten auf der Website? Für die umsatzstärksten Produkte/Seiten fertigst du dann individuelle Texte an. Für die weniger wichtigen Seiten genügt es, das „nofollow“-Attribut im HTML-Header zu setzen:
<a href=”http://www.website.de/” rel=”nofollow”>Weiterführende Informationen</a>
5) interne Suchfunktion
Eigentlich eine tolle Funktion erleichter sie dem User doch die fokussierte Suche nach einem Produkt oder Artikel. Sobald der Suchbegriff in den Suchschlitz eingegeben wurde, erscheint eine Liste mit passenden Ergebnissen zum Thema. Allerdings funktioniert das nicht genauso wie bei Google, wo dir einzigartige Inhalte angezeigt werden.
LÖSUNG: Deindexierung & disallow-Attribut
Ratsam ist es, interne Suchergebnisseiten gleich vom Index auszusperren, denn sie sind meist irrelevant für die Google SERPs und verbrauchen unnötig Crawling-Budget. Damit das Verzeichnis nicht gecrawlt wird, trägst du in die robots.txt Folgendes ein und fertig:
User-agent: *
Disallow: /search-results/
4) Filterfunktionen
Es ist nur vernünftig, dem Kunden oder Leser die Möglichkeit zu geben, Inhalte gezielt auf der Website nach Preis, Hersteller oder Schlagwort zu filtern. Leider entstehen daraus wieder unterschiedliche URLs mit den gleichen Inhalten.
LÖSUNG
Hier gehst du genauso vor, wie bezüglich der Suchfunktionen:
User-agent: *
Disallow: /filter-results/
5) alte indexierte Domains nach Domain-Umzug
Wird eine Website gänzlich auf eine neue Domain verlagert, bleibt der Content auf der alten Domain im Index erhalten. Also haben wir wieder den gleichen Inhalt auf 2 verschiedenen Internetadressen. Große Ranking-Sprünge lassen sich so nicht erreichen.
LÖSUNG: 301-Weiterleitung bzw. Redirect
Warum eine Weiterleitung anstatt Canonical-Tag? Weil du mit einer Weiterleitung deinen PageRank und Linkjuice auf das neue Ziel überträgst. Du hast grundsätzlich 2 Möglichkeiten, dies zu tun:
a) Eintrag in .htaccess-Datei
Eine permanente Umleitung kannst du mit folgendem Eintrag einrichten:
RedirectPermanent / https://musterdomain.de
b) Verweis in HTML- oder PHP-Datei
Den gleichen Effekt erreichst du, wenn du diesen Vermerk direkt in die HTML-Datei oder PHP-Datei integrierst:
<php
header("HTTP/1.1 301 Moved Permanently");
header("Location: https://musterdomain.de/beispiel.html");
header("Connection: close");
?>
Doppelte Inhalte vermeiden:
Tipps von Google himself
Auf der offiziellen Hilfe-Seite für die Google Search Console gibt Googles Johne Mueller folgende Ratschläge zum Thema:
Achte darauf, dass deine Seiten thematisch eindeutig sind und für sich alleine stehen können
Liefere Qualität, sowohl beim Content als auch bei der internen Verlinkung
Manche Arten von Duplicate Content sind normal und kein Problem
Reduziere wiederkehrende Textbausteine
Ähnliche Inhalte auf eine URL zusammenführen
Verwende nur eine URL pro Inhalt
Verhindere unnötige URL-Varianten
Nimm Einstellungen in der Search Console vor: bevorzugte Domain, URL-Parameter-Handling etc.
Setze hreflang und Geotargeting ein
Google: folgende Methoden nicht, um Duplicate Content Probleme zu lösen
Gebrauche nicht die robots.txt zum Ausschluss von Doppelten Inhalten, denn so hat der Google Bot keine Möglichkeit, sich einen ungestörten Überblick zu verschaffen.
Doppelte Inhalte einfach nur umzuschreiben, bietet wenig Mehrwert. Versuche also in jedem Text einen eigenen Dreh hineinzubekommen.
Lass die Finger vom URL-Removal-Tool, dann taucht nämlich die URL gar nicht mehr in den Suchtreffern auf
Fazit: Keine Panik vor Duplicate Content, aber sei wachsam!
Duplicate Content ist kein grundsätzliches Problem, denn Google ist inzwischen dazu imstande, Spammy-Content von guten Inhalten zu unterscheiden. Wichtige Geschäftsinfos im Footer deiner Website oder allgemeine Infos zum Autor in Blog-Artikeln fallen kaum ins Gewicht.
Anders sieht es aus, wenn sich dein Main Content stark ähnelt. Hier ist sofortiges Handeln gefragt! Denn diese Art von Duplicate Content hat negative Auswirkungen auf deine Platzierung und Sichtbarkeit in den Suchergebnissen.