Ich bin ein wenig statistikverliebt und werte Dinge gern aus. Gerade bei meinen Webprojekten schaue ich schon regelmässig in die Statistiken um zu checken, wie sich die Projekte entwickeln. Schon seit einigen Monaten nervt mich ein Problem bei der Auswertung meiner Webprojekte: Ref-Spam. 

Spam

Was ist Ref-Spam?

Wenn von einer Webseite auf Deine Webseite verlinkt wird und jemand diesen Link klickt und dadurch auf Deinen Seiten landet, ist die ein sogenannter Referrer oder Referral. Damit kann man dann zum Beispiel erkennen, wo Deine Seiten ggf. verlinkt werden und wie viele Besucher darüber auf Deine Seiten gelangt sind. Alles schön, alles fein.

Nun war irgendwann mal jemand so „clever“ und dachte sich: „Hey, wenn Webseitenbetreiber ihre Statistiken prüfen und dort Domains in den Verweisen/Referrals sehen, schauen die bestimmt mal auf die Seiten um zu prüfen, was denn da los ist und wer denn da verlinkt. Da bauen wir uns doch mal nen kleinen feinen Bot und lassen den mit unseren URLs massenhaft Seiten besuchen. Die meisten werden schon mal klicken, wir bekommen fein Traffic und der ein oder andere bleibt vielleicht in unserem Shop/Download/whatever-Zeug hängen. \o/“

Und solche (vermeintlichen) Aufrufe von Domains, auf denen Eure Seite(n) aber gar nicht verlinkt sind, ist Ref-Spam.

Warum nervt das?

Wären das so 4-5 Aufrufe im Monat würde mich das vielleicht gar nicht kümmern, evtl. würde ich dies gar nicht bemerken. Aber mittlerweile bestimmten diese Spammer (nichts anderes ist es – SPAM) die Top-Listen der Referrer. Bei einem Projekt sind es z.B. 7 Spammer in den Top10. Eine dieser Spam-Domains in den letzten 10 Tagen sogar über 300x als Verweis geführt. Damit sind Statistiken verfälscht und auch Werte wie die Sitzungsdauer können eigentlich in den Müll, da diese Spammer meist nur sehr kurz verweilen. Das nervt mich einfach… :(

Welche URLs sind das denn z.B.?

Die Liste der Spam-Domains ist mittlerweile auch recht lang. Nachstehend mal die, welche ich bisher bei mir festgestellt habe:

  • semalt.semalt.com
  • buttons-for-website.com
  • 7makemoneyonline.com
  • sm.de
  • hulfingtonpost.com
  • search.fbdownloader.com
  • bestwebsitesawards.com
  • humanorightswatch.org
  • simple-share-buttons.com
  • social-buttons.com
  • o-o-6-o-o.com
  • 4webmasters.org
  • googlsucks.com
  • torture.ml
  • simple-share-buttons.com
  • theguardlan.com
  • best-seo-offer.com
  • best-seo-solution.com
  • buttons-for-your-website.com
  • buy-cheap-online.info
  • defensacivilsanmiguel.cl
  • depositfiles-porn.ga
  • Get-Free-Traffic-Now.com
  • free-share-buttons.com
  • trafficmonetize.org
  • guardlink.org
  • 100dollars-seo.com
  • howtostopreferralspam.eu
  • free-social-buttons.com
  • event-tracking.com

Sicher gibt es noch viele mehr, dies sind nur die, welche ich bisher in den Statistiken bei mir gefunden habe. Wenn Ihr weitere kennt oder bei Euch andere aufgefallen sind, gern in die Kommentare damit.

Wie lässt sich das lösen? Wie die Spammer blocken?

Das ist eine gute Frage. Ich habe bereits etliche Dinge probiert. Es gibt diverse Blogartikel und Seiten, welche sich mit diesem Thema befassen und mögliche Schutz- bzw. Abwehrmassnahmen empfehlen.

Zunächst hatte ich es mit einer Bearbeitung der .htaccess Datei wie folgt versucht:

order deny,allow
deny from spamdomain1.com
deny from spamdomain2.com
deny from spamdomain3.com

Dies ist nach meinen Recherchen eine sehr häufig erwähnte Methode, wonach die Zugriffe von solchen Domains verweigert werden sollen. Leider hat dies bei mir jedoch nicht wirklich etwas geändert. Die Spam-Domains blieben in den Statistiken weiterhin ersichtlich.

Also weiter gesucht und dann wurde ich von Bastian auf diesen Artikel von Sebastian aufmerksam gemacht. Auch er löst es über eine .htaccess Anpassung wie folgt:

SetEnvIfNoCase Referer spamdomain1.com spammer=yes
SetEnvIfNoCase Referer spamdomain2.com spammer=yes
SetEnvIfNoCase Referer spamdomain3.com spammer=yes
Order allow,deny
Allow from all
Deny from env=spammer

Sah auch vielversprechend aus, leider werden auch hier weiterhin Spam-Domains in den Statistiken aufgeführt.

Ok, was bleibt? Wenn ich den Murks schon nicht effektiv blockieren kann, dann will ich das wenigstens aus meinen Statistiken heraus haben. Für Google Analytics hatte Hennig vor längerem mal eine Anleitung erstellt, welche über diverse Filter die entsprechenden Domains herausfiltern soll. Aber auch hier bin ich etwas skeptisch.

Nachdem ich die oben erwähnten Domains fein säuberlich in die Filter hinterlegt hatte, habe ich die Werte des Projektes gefiltert und ungefiltert verglichen. Keine Abweichung feststellbar. Es wird zwar ein gelblich schimmernder Hinweis angezeigt, die Statistik sei ggf. ungenau, da man Filter nutze, aber an den Werten konnte ich keine Abweichung erkennen.

Nach etwas verlorenem herumirren in den Weiten des Webs bin ich dann noch auf den Artikel von Dominik gestossen. Eine sehr ausführliche Anleitung für die .htaccess-Datei sowie auch Einstellungen in Google Analytics. Die .htaccess Anpassung ist ähnlich der von Sebastian (siehe link weiter oben), ergänzt jedoch um die Einträge mit User-Agent.

SetEnvIfNoCase Referer spamdomain1.com spam=yes
SetEnvIfNoCase Referer spamdomain2.com spam=yes
SetEnvIfNoCase User-Agent spamdomain1.com spam=yes
SetEnvIfNoCase User-Agent spamdomain2.com spam=yes
Order allow,deny
Allow from all
Deny from env=spam

Leider ist dennoch auch weiterhin eine Bearbeitung in Google Analytics notwendig und hier geht Dominik einen anderen Weg als die bisherigen Lösungen die ich probiert habe. Wie lest Ihr am Besten direkt bei Dominik nach, er hat das recht verständlich geschildert und bebildert.

Und dieser Weg scheint tatsächlich zu funktionieren – zumindest grossteils. Mit dem extra Segment sehe ich nun doch einen merklichen Unterschied in der Statistik. Zunächst dachte ich, durch die von ihm aufgezeigten Einträge werden ja alle externen Referrer ausgeblendet, aber dem ist nicht so.

Ref-Spam Ergebnis Verweisestatistik

Wie im obigen Screenshot der Verweis-Statistik ersichtlich, so wird für die meisten Spam-URLs im Segment Ref-Spam-Filter eine 0 angezeigt, selbige werden also ausgeschlossen. Gewünschte Referrer wie z.B. XING werden regulär mit allen Aufrufen geführt. Allerdings klappt der Ausschluss nicht immer, wie man am Beispiel von 100dollars-seo.com sieht.

Die Lösung von Dominik bringt mich schon mal ein ganzes Stück weiter, zumindest was die Ergebnisse in Google Analytics betrifft. Allerdings suche ich nach einer effektiven Lösung für diese Thematik, welche mir diese Aufrufe im idealen Fall komplett blockt, diese also gar nicht erst in die Verlegenheit kommen, statistisch erfasst zu werden. Kennt jemand von Euch eine solche, funktionierende Möglichkeit bzw. wie handhabt Ihr dies bei Euch?


Bild: geralt (pixabay)

Share This