Duplicate Content Check: Website auf doppelte Inhalte prüfen

SEO

30. Sept.

Duplicate Content führt zu Verlusten an Sichtbarkeit und Traffic im Internet. Wer also bei Google ganz oben mitmischen will, sollte folgende Fehlerquellen vermeiden und seine Website sauber halten.

- Was ist Duplicate Content?
  - Was ist interner Duplicate Content?
  - Was ist externer Duplicate Content?
- Wie entsteht Duplicate Content?
- Ab wann Duplicate Content gegeben ist
- Wie erkennt Google Duplicate Content?
- Bestraft Google Websites mit doppelten Inhalten?
- Duplicate Content Check: interne Doppelte Inhalte finden
- Fehlerquellen & Lösungen
  - Startseite
  - Kategorien & TAGs
  - Produkt-Varianten
  - Filterfunktionen
  - interne Suchfunktionen
  - Sprach-Versionen
  - Domain-Umzug
- Google Tipps: Doppelte Inhalte vermeiden

Duplicate Content ist häufig

Es gibt wohl kaum einen Website-Betreiber, der sich noch nicht mit dem Begriff Duplicate Content auseinandersetzen musste. Schätzungen zufolge sind satte 30 % des gesamten Web-Contents Duplikate. Vor allem Online-Shops und große Websites haben häufig mit diesem Problem zu kämpfen.

Vgl. auch: 12 häufige SEO-Fehler + Lösungen

Was ist Duplicate Content?

Duplicate Content, zu Deutsch „Doppelter oder Duplizierter Inhalt“, beschreibt gleiche oder fast identische Inhalte, die unter verschiedenen URLs existieren. Der Umgang mit und die Behebung von Doppelten Inhalten zählt mitunter zu den Kernaufgaben der Suchmaschinenoptimierung (insbesondere der OnPage-Optimierung).

Zudem lässt sich noch einmal zwischen internem Duplicate Content und externem Duplicate unterscheiden:

Was ist interner Duplicate Content?

Das sind gleiche oder sehr ähnliche Inhalte, die sich unter verschiedenen URLs innerhalb ein und derselben Domain abrufen lassen.

Das macht diese Art von Duplicate Content kontrollierbarer.

Was ist externer Duplicate Content?

Hierbei handelt es sich um Doppelte Inhalte, die auf verschiedenen Websites oder externen Domains existieren.

Die gibt es mittlerweile häufig und sie werden von Google ignoriert.

Wie entsteht Duplicate Content?

Duplicate Content kommt häufig als interne Doppelung vor. In den meisten Fällen findet sich die Ursache im verwendeten CMS, das die Inhalte strukturiert und auf diverse URLs verteilt. Doch neben technischen Problemen können auch andere Gründe dafür verantwortlich sein.

Die häufigsten Fehlerquellen sind zum Beispiel:

Website ist mit und ohne www abrufbar
Website ist ohne (http) und mit SSL-Verschlüsselung (https) erreichbar
Archivierung von Seiten
interne Suchergebnis-Seiten
Seiten oder Beiträge, die zu mehreren Kategorien oder TAGs gehören
Gleiche oder sehr ähnliche Produktbeschreibungen
mobile Website-Versionen

Natürlich gibt es noch jede Menge weiterer Ursachen wie Kommentare auf Blogs, paginierte Seiten in Online-Shops, Druckversionen und so weiter und so fort. Google erkennt mit hoher Zuverlässigkeit identische und sehr ähnliche Textbausteine. In vielen Fällen sind sie kein Problem, in anderen stören sie das Ranking deiner Website.

Duplicate Content: ab wann gelten Inhalte als Duplikate?

In den meisten Fällen geht es um größere Textblöcke, nicht einzelne Sätze oder Wörter. Auch wiederkehrende Textbausteine sind darunter zu verstehen.

Zitate oder zitierte Textpassagen werden von Google normalerweise nicht als Ducplicate Content bewertet. Bei Zitaten ist es trotzdem ratsam, diese im Quellcode entsprechend zu kennzeichnen:

<blockquote>Zitat<cite>Autorenname bzw. Quellangabe</cite></blockquote>

Doch was ist mit anderen statischen Textbausteinen, die unter mehreren URLs existieren? Zum Beispiel Geschäftsinformationen oder Newsletter-Formulare im Footer. Ja, auch diese Elemente gelten als Duplicate Content – sind aber kein Problem. Denn nur wenn der Duplicate Content nach Manipulation stinkt, spricht Google ein Machtwort.

Wie erkennt Google doppelte Inhalte?

Eine häufig gestellte Frage in der SEO-Szene: Wie erkennt Google, was der Original-Content ist und welches das Duplikat? Hier können wir nur spekulieren: Vermutlich arbeitet Google mit Shingle Algorithmen, eine übliche Methode zur Identifizierung von Duplicate Content.

Dazu wird der komplette Online-Text in einzelne Shingles (Schindeln) unterteilt und verglichen. Oft handelt es sich dabei um Level-3-Shingles, also 3-Wort-Pakete.

Beispiel für Shingles

Als Beispiel nehmen wir die Sätze „hochwertige Jacken für Damen in braun“ und „stylische Jacken für Damen in beige“.

1. Beispielsatz: hochwertige Jacken für Damen in Braun

hochwertige Jacken für
Jacken für Damen
für Damen in
Damen in Braun

2. Beispielsatz: stylische Jacken für Damen in Beige

stylische Jacken für
Jacken für Damen
für Damen in
Damen in Beige

Jetzt zeigt sich, dass 2 von 4 Shingles absolut übereinstimmen. Die Sätze gleichen sich damit zu 50 %. Das ist jetzt natürlich ein sehr vereinfachtes Beispiel, doch so ungefähr funktioniert das Prinzip.

Bestraft Google Websites mit doppelten Inhalten?

Google straft nach eigener Aussage internen Duplicate Content nicht mit seinen gefürchteten Penaltys ab (außer es stinkt nach Manipulation und Betrug). Allerdings erschweren doppelte Inhalte dem Google Bot das Crawlen deiner Seiten und setzen nicht die gewünschten Signale.

Die Suchmaschine will dem User schließlich das bestmögliche Ergebnis präsentieren. Für die Maschine ergibt es keinen Sinn, ein und denselben Inhalt gleich mehrmals unter den Top 10 auf der Suchergebnisseite (SERP) auszuspielen. Der Text scheint nämlich nicht einzigartig zu sein, wenn er gleich mehrmals indexiert ist.

Darüber hinaus verfügt der Google Crawler nur über ein begrenztes Crawling-Kontingent: Duplicate Content könnte dafür sorgen, dass andere, wichtigere Seiten deiner Website nicht indexiert werden, weil das Crawling-Budget durch die doppelten Inhalte schon aufgebraucht ist.

Im schlimmsten Fall kann es tatsächlich zu einer Google Penalty kommen. Nämlich dann, wenn Google hinter den doppelten Inhalten einen Manipulationsversuch sieht.

Vgl. auch SEO-Texten / SEO-Writing Basics

Duplicate Content Check

Interne doppelte Inhalte finden

Internen Duplicate Content kannst du mithilfe von Tools schnell ermitteln. Ist Duplicate Content vorhanden, verschenkst du wertvolles Potenzial deiner Website, das du anderweitig profitabler nutzen könntest.

Für ein gutes Ranking ist es daher notwendig, Duplicate Content ausfindig zu machen, zu beheben und die technischen Bedingungen zu schaffen, um Duplikate von vorneherein zu vermeiden.

Empfehlenswert ist zum Beispiel Siteliner. Damit erhältst du eine genaue Auflistung bezüglich: prozentuale Übereinstimmung von Seiteninhalten, Seitenanzahl mit ähnlichem Content, Relevanz der Seite bei Google, übereinstimmende Begriffe etc.). Alternativ dazu kannst du natürlich auch den Screaming Frog bemühen.

Und dann?

Finden sich Seiten mit einer hohen Übereinstimmung, solltest du dringend den Inhalt überprüfen und analysieren. Das aber auch nur, wenn es sich um eine wichtige Seite innerhalb deines Internetauftritts handelt. Sind dagegen Kategorie oder Archiv-Seiten betroffen, brauchst du dir keine Sorgen zu machen. Das passiert häufig. Abhilfe schaffen hier bestimmte Einträge in den Meta-Daten (mehr dazu weiter unten).

Fehlerquellen & Lösungen für doppelte Inhalte

Die häufigsten Duplicate Content-Fallen

Im Grunde soll dir dieser Beitrag verdeutlichen, dass es verschiedene Wege gibt, Duplicate Content zu beheben. Eben je nachdem wodurch er bedingt ist. Im Folgenden findest du daher typische Probleme, durch die Duplicate Content entsteht, und geeignete Lösungswege.

1) Startseite lässt sich über verschiedene URLs abrufen

Doppelte Startseiten sind tatsächlich ein häufiges Phänomen bei Online-Auftritten. Gar nicht gut, denn gerade deine Startseite sollte am besten bei Google ranken und zahlreiche Backlinks besitzen.

a) Wurde die Startseite mehrmals indexiert, findest du sie zum Beispiel unter

```
http://muster.de   
```
```
http://www.muster.de
```

b) Das gleiche Prinzip taucht beim Einbinden von SSL-Zertifikaten auf, oft existiert die Website dann

```
ungesichert mit http 
```
```
gesichert mit https
```

c) Ebenso lässt sich die Domain oft mit Trailing-Slash am Ende und ohne abrufen:

```
https://muster.de 
```
```
https://muster.de/ 
```

LÖSUNG: Domain-Umleitung via .htaccess-Datei

a) & b) » Du musst dich nun für eine Version entscheiden. Meistens fällt die Wahl auf eine URL mit www, ganz einfach, weil die User diesem Präfix aus Gewohnheit mehr Vertrauen schenken.

Möchtest du also auf die www-Domain umleiten, sieht das im Quellcode so aus:

 RewriteEngine On

 RewriteCond %{HTTP_HOST} !musterdomain.de$

 RewriteRule ^(.*)$ www.musterdomain.de/$1 [L,R=301,QSA]

Alternativ nimmst du die Umleitung in der Google Search Console vor:

Property auswählen
aufs Zahnrad-Symbol klicken
Website-Einstellungen aufrufen
bevorzugte Domain festlegen

Domain-Umleitung mit der Google Search Console

c) Um Duplicate Content durch Trailing-Slashes zu beheben, richtest du eine 301-Weiterleitung permanent für die Version mit Slash in der .htacess-Datei ein.

RewriteEngine On

RewriteCond %{REQUEST_URI} /[^/.]+$

RewriteRule ^(.+[^/]$ %{REQUEST_URI}/ [R=301,L]

2) Gleicher Inhalt mehrfach kategorisiert oder getaggt

Dieser Umstand betrifft nicht nur Online-Shops, sondern auch ganze Blogs. Verständlicherweise soll das Produkt oder der Artikel unter verschiedenen Kategorien bzw. Schlagworten gefunden werden. Das Ergebnis ist jedoch meist Duplicate Content.

a) Beispiel Online-Shop:

Die sündhaft teure Diesel-Jeans passt zur Kategorie damen/jeans/diesel und marken/jeans/diesel. Daraus entsteht:

```
www.must.de/damen/jeans/diesel 
```
```
www.muster.de/marken/jeans/diesel  
```

b) Beispiel Blog-Artikel:

Ein Text über „Damenschuhe für den Herbst“ kann mit den TAGs #mode und #schuhtrends versehen werden. Und das kommt dabei heraus:

www.muster.de/blog/mode/damenschuhe-herbst

www.muster.de/blog/schuhtrends/damenschuhe-herbst

LÖSUNG: Canonical-Tag setzen

Mit einem Canonical-Linkverweis kannst du Inhalte kennzeichnen, die im thematischen Verhältnis zu einer Originalquelle stehen. Auf den Punkt gebraucht: Der TAG zeigt Google, auf welcher Seite sich das Original befindet. Und nur diese Seite wird dann indexiert.

Nehmen wir also das Beispiel von oben mit der Diesel Jeans: hier musst du folgenden TAG im Header-Code der Seite unterbringen, die nicht das Original ist (hier: /schuhtrends/damenschuhe-herbst):

<link rel="canonical" href="http://www.musterdomain.de/mode/damenschuhe-herbst"/>

3) Verschiedene Produktversionen bzgl. Farbe, Größe, Form etc.

Nicht selten verkaufen Online-Shops ihre Produkte in verschiedenen Farben und Größen. Dabei nutzen sie den gleichen Produkttext und die selben Meta-TAGs (Title & Description). Das Problem ist nur, jede Produktvariante hat eine eigene URL.

LÖSUNG: Priorisierung & nofollow-Attribut

Ideal wäre es natürlich, individuelle Produktbeschreibungen anzufertigen. Allerdings ist das aufgrund zeitlicher und kostenspezifischer Aspekte meist unmöglich. Es empfiehlt sich daher, Prioritäten zu setzen:

Welche Artikel bringen den meisten Umsatz? Welche Online-Texte sind die relevantesten auf der Website? Für die umsatzstärksten Produkte/Seiten fertigst du dann individuelle Texte an. Für die weniger wichtigen Seiten genügt es, das „nofollow“-Attribut im HTML-Header zu setzen:

<a href=”http://www.website.de/” rel=”nofollow”>Weiterführende Informationen</a>

5) interne Suchfunktion

Eigentlich eine tolle Funktion erleichter sie dem User doch die fokussierte Suche nach einem Produkt oder Artikel. Sobald der Suchbegriff in den Suchschlitz eingegeben wurde, erscheint eine Liste mit passenden Ergebnissen zum Thema. Allerdings funktioniert das nicht genauso wie bei Google, wo dir einzigartige Inhalte angezeigt werden.

LÖSUNG: Deindexierung & disallow-Attribut

Ratsam ist es, interne Suchergebnisseiten gleich vom Index auszusperren, denn sie sind meist irrelevant für die Google SERPs und verbrauchen unnötig Crawling-Budget. Damit das Verzeichnis nicht gecrawlt wird, trägst du in die robots.txt Folgendes ein und fertig:

User-agent: *

Disallow: /search-results/

4) Filterfunktionen

Es ist nur vernünftig, dem Kunden oder Leser die Möglichkeit zu geben, Inhalte gezielt auf der Website nach Preis, Hersteller oder Schlagwort zu filtern. Leider entstehen daraus wieder unterschiedliche URLs mit den gleichen Inhalten.

LÖSUNG

Hier gehst du genauso vor, wie bezüglich der Suchfunktionen:

User-agent: *

Disallow: /filter-results/

5) alte indexierte Domains nach Domain-Umzug

Wird eine Website gänzlich auf eine neue Domain verlagert, bleibt der Content auf der alten Domain im Index erhalten. Also haben wir wieder den gleichen Inhalt auf 2 verschiedenen Internetadressen. Große Ranking-Sprünge lassen sich so nicht erreichen.

LÖSUNG: 301-Weiterleitung bzw. Redirect

Warum eine Weiterleitung anstatt Canonical-Tag? Weil du mit einer Weiterleitung deinen PageRank und Linkjuice auf das neue Ziel überträgst. Du hast grundsätzlich 2 Möglichkeiten, dies zu tun:

a) Eintrag in .htaccess-Datei

Eine permanente Umleitung kannst du mit folgendem Eintrag einrichten:

RedirectPermanent / https://musterdomain.de

b) Verweis in HTML- oder PHP-Datei

Den gleichen Effekt erreichst du, wenn du diesen Vermerk direkt in die HTML-Datei oder PHP-Datei integrierst:

 <php

 header("HTTP/1.1 301 Moved Permanently");

 header("Location: https://musterdomain.de/beispiel.html");

 header("Connection: close");

?>

Doppelte Inhalte vermeiden:

Tipps von Google himself

Auf der offiziellen Hilfe-Seite für die Google Search Console gibt Googles Johne Mueller folgende Ratschläge zum Thema:

Achte darauf, dass deine Seiten thematisch eindeutig sind und für sich alleine stehen können
Liefere Qualität, sowohl beim Content als auch bei der internen Verlinkung
Manche Arten von Duplicate Content sind normal und kein Problem
Reduziere wiederkehrende Textbausteine
Ähnliche Inhalte auf eine URL zusammenführen
Verwende nur eine URL pro Inhalt
Verhindere unnötige URL-Varianten
Nimm Einstellungen in der Search Console vor: bevorzugte Domain, URL-Parameter-Handling etc.
Setze hreflang und Geotargeting ein

Google: folgende Methoden nicht, um Duplicate Content Probleme zu lösen

Gebrauche nicht die robots.txt zum Ausschluss von Doppelten Inhalten, denn so hat der Google Bot keine Möglichkeit, sich einen ungestörten Überblick zu verschaffen.
Doppelte Inhalte einfach nur umzuschreiben, bietet wenig Mehrwert. Versuche also in jedem Text einen eigenen Dreh hineinzubekommen.
Lass die Finger vom URL-Removal-Tool, dann taucht nämlich die URL gar nicht mehr in den Suchtreffern auf

Fazit: Keine Panik vor Duplicate Content, aber sei wachsam!

Duplicate Content ist kein grundsätzliches Problem, denn Google ist inzwischen dazu imstande, Spammy-Content von guten Inhalten zu unterscheiden. Wichtige Geschäftsinfos im Footer deiner Website oder allgemeine Infos zum Autor in Blog-Artikeln fallen kaum ins Gewicht.

Anders sieht es aus, wenn sich dein Main Content stark ähnelt. Hier ist sofortiges Handeln gefragt! Denn diese Art von Duplicate Content hat negative Auswirkungen auf deine Platzierung und Sichtbarkeit in den Suchergebnissen.

doppelte inhalteduplicate contentSEO-textetechnisches seocmswiederkehrende texte

Tamara Niebler

Hallo, ich bin Tamara Niebler, studierte Philosophin und freie Texterin in München. Als ausgebildete Journalistin schreibe ich seit mehr als 10 Jahren für Medien und Unternehmen. Auf diesem Blog teile ich meine Erfahrungen als SEO-Texterin für Online-Texte und Content-Marketing.