Jump to content

[Gelöst]Crawler füllt munter alles in den Warenkorb


Recommended Posts

Hallo zusammen,

 

ich kriege immer Besuch von Seokicks, der füllt sich munter alles mögliche in den Warenkorb, was unbedingt vermieden werden sollte (wie natürlich auch von anderen Crawlern).

 

Was kann man da tun?

 

Ich hab den jetzt per .htaccess ausgesperrt, aber das kann und soll nicht die Lösung sein.

Edited by Claudiocool (see edit history)
Link to comment
Share on other sites

Die Bots können nicht über die Produktseite einen cart anlegen (kein Link). Das geht dann also nur über die Listenansicht. Dort mit dem Cursor auf "Warenkorb", dann zeigt er dir unten links (bei Firefox) den Link an. Ich hatte eigentlich auf deiner Seite geschaut.

 

Das müsste eigentlich funktionieren, es sei denn es gibt nochmal einen weiteren Link auf den Warenkorb?

 

Grüsse

Whiley

  • Like 1
  • Thanks 1
Link to comment
Share on other sites

  • 1 month later...

Moin,

 

sagt mal, das "Problem" habe ich auch.

Allerdings habe ich von Begin an in meiner robots (unter anderem...)

User-agent: *

Disallow: /*de/warenkorb

 

 

Trotzdem habe ich alle paar Minuten Warenkörbe mit je einem Artikel und alle paar Tage einen riiiiesigen Warenkorb.

Scheint ja aber, dass meine Sperre in der robots da nix ausrichtet.

 

Habt Ihr n Ansatz was ich machen kann?

 

Danke & Viele Grüße

Link to comment
Share on other sites

Allerdings habe ich von Begin an in meiner robots (unter anderem...)

 

User-agent: *

Disallow: /*de/warenkorb

Diese Anweisung betrifft jeden Besucher, ob Mensch oder Roboter oder woher er kommt. Also entweder kann jeder bei dir den Warenkorb füllen oder keiner (vielleicht heißt bei dir der Warenkorb ja anders).

 

Davon abgesehen können Menschen auch über einen Klick auf den Button auf der Produktseite bestellen (und warum sollen das Scripte nicht auch können?).

Link to comment
Share on other sites

Diese Anweisung betrifft jeden Besucher, ob Mensch oder Roboter oder woher er kommt. Also entweder kann jeder bei dir den Warenkorb füllen oder keiner (vielleicht heißt bei dir der Warenkorb ja anders).

 

Ich wusste gar nicht, dass sich unsere Kunden die robots durchlesen bzw davon abhalten lassen.... ;-)

Link to comment
Share on other sites

Ich wusste gar nicht, dass sich unsere Kunden die robots durchlesen bzw davon abhalten lassen.... ;-)

Sorry, jetzt war ich auf dem falschen Dampfer, ich dachte es ging um einen Eintrag in die .htaccess.

 

Nur, die Anweisungen in der robots.txt sind ja quasi nur "Bitten", an die sich seriöse Suchmaschinen-Robots halten, aber doch keine Spammer, unseriöse Crawler etc. ...

Link to comment
Share on other sites

  • 2 weeks later...

SEOkicks ist eine Nervmaschine ohne Ende. Hatte auch mal Kontakt mit der Firma, da hat man uns dann Schlampigkeit vorgeworfen.

 

robots.txt ist ein deFacto-Standard, aber nicht alle Crawlers halten sich daran

.htaccess ist die Methode für alle, die nicht lesen wollen in robots.txt

 

Irgendwann schreib ich dann mal ein Modul, dass die .htaccess dynamisch füttert oder ggf. direkt bei Verbindungsaufbau den Crawler nach Nirgendwo sendet.

Hier mal ein Auszug einer htaccess, da hat es noch ein paar mehr Dingens.

SetEnvIfNoCase Referer "porn" spam_ref=1
SetEnvIfNoCase user-Agent ^Java.* spam_ref=1
SetEnvIfNoCase user-Agent SEOkicks spam_ref=1
SetEnvIfNoCase user-Agent seoscanner spam_ref=1
SetEnvIfNoCase user-Agent AhrefsBot spam_ref=1
SetEnvIfNoCase user-Agent majestic12 spam_ref=1
SetEnvIfNoCase user-Agent SemrushBot/1.1 spam_ref=1
SetEnvIfNoCase user-Agent OpenLinkProfiler.org spam_ref=1

<Files robots.txt>
    Order deny,allow
    Allow from all
</Files>

<Limit GET HEAD POST>
order deny,allow
Deny from env=spam_ref
Deny from .ro
Deny from .ru
Deny from .cn
Deny from .gn
Deny from .hu
Deny from .lv
Deny from .pe
Deny from .kp
Deny from .pl
Deny from 163data.com.cn
Deny from serverprofi24.de
# block hetzner online
Deny from 136.243.0.0/16
Deny from 144.76.0.0/16
Deny from 46.4.100.
Deny from 46.4.68.
Deny from 5.9.6.
Deny from 5.9.85.24
Deny from 88.198.
</Limit>

Zur Erklärung der vielen Deny auf TopLevel. Das sind Länder, von welchen wir keine Besucher wollen. I.d.R., weil darüber zuviel Versuche laufen, den Shop oder den ganzen Server auf Schwachstellen zu scannen. Direkte zugriffe auf .php Files, eval Statements etc etc.

Link to comment
Share on other sites

  • 1 month later...

Moin, nachdem ich nun die Sperrungen aus meinem alten Shopsystem aka alte robots (lief 7 Jahre einwandfrei und SEOmäßig sehr zufriedenstellend) in die aktuelle robots übernommen habe, sind meine fake Warenkörbe deutlich (!) weniger geworden.

 

Wer es sich übernehmen möchte oder einfach so einen Blick drauf werden möchte (ich übernehme keine Garantie!)

Hier was ich nach den Ausschlüssen zu einigen Adminseiten nutze um einige Crawler auszusperren:

#you are NOT welcome

User-agent: grub-client
Disallow: /

User-agent: grub
Disallow: /

User-agent: looksmart
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: larbin
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: RMA
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: asterias
Disallow: /

User-agent: httplib
Disallow: /

User-agent: turingos
Disallow: /

User-agent: spanner
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: WebmasterWorldForumBot
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: moget
Disallow: /

User-agent: hloader
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Szukacz/1.4 
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Openfind data gathere
Disallow: /

User-agent: Openfind 
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: searchpreview
Disallow: /

User-agent: SEOkicks-Robot
Disallow: /

Link to comment
Share on other sites

  • 2 weeks later...

Hey,

Also ich habe erst seit kurzem einen kleinen Onlineshop und seit heute habe ich immer wieder die gleiche IP auf meiner Seite, der auch ständig earenkörbe mit einem Artikel erstellt. Das klingt für mich sehr nach den hier erwähnten Crawlern. Ich kenne mich in dem Ganzen leider noch nicht so gut aus, deswegen dachte ich mir ihr könnt mir vielleicht helfen: Wie erkenne ich denn, ob und um welchen Crawler/Bot es sich handelt?

 

Schon einmal vielen Dank für eure Hilfe!

Link to comment
Share on other sites

1. Hast Du denn in Deiner robots.txt den Zugriff auf den Warenkorb gesperrt?

2. Und sonst: Die IP des vermeintlichen Kunden mal hier eingeben:

 

https://www.whois.com/whois/

 

Erscheint Da Google oder Microsoft als IP-Inhaber, zurück zu Feld 1.

Erscheint Da eine unbekannte Adresse aus China, Vietnam oder Brasilien -> IP Adresse global sperren -> .htaccess

  • Like 1
Link to comment
Share on other sites

@ scully

Erst mal vielen Dank für die schnelle Antwort. Ich habe die IP geprüft und es ist wohl eine Host Europe GmbH. 
 

Zu 1. sorry für die doofe Frage, ist alles ziemlich neu für mich, wo finde ich denn die robots.txt um zu checken, ob der Zugriff auf den Warenkorb gesperrt ist? Und wie müsste das denn aussehen?

 

Tausend Dank schon mal!

Link to comment
Share on other sites

1. Kann man IPs oft auch bei Google absuchen, wenn diese als extrem "lästig" bekannt ist, finden sich dann auch oft entsprechende Beschwerden.

2. robots.txt liegt im Hauptverzeichnis Deines Shops. Im Backoffice - SEO & URL kann man diese erstellen wenn noch nicht vorhanden. Ich meinte, dann seinen Warenkorb-Zugriffe für Suchmaschinen auf "Abweisen" gesetzt.

  • Like 1
Link to comment
Share on other sites

Ok, ich war doch ein bisschen voreilig und habe es selbst herausgefunden, ich habe jetzt über das Backoffice eine robot.txt erstellen lassen.
Ist es ausreichend die von prestashop automatisch generierte Datei zu verwenden (Warenkorb ist auf disallow gesetzt) oder sollte ich noch Modifikationen daran durchführen? 

Link to comment
Share on other sites

Da musst du halt beobachten, ob es nun gut ist, es wird immer irgendwelche agressiven Bots geben, die sich von einer Robots.txt nichts "sagen" lassen, am Besten sieht man es natürlich in den Logs auf dem Server, weil da die Bots beim Namen genannt werden und dann in der htaccess ein Plätzchen erhalten können, scully hat ja weiter oben sehr gut beschrieben, wie das geht.

 

Die schlimmsten Bots habe ich seitdem weg, Warenkörbe bleiben nun sauber.

  • Like 1
Link to comment
Share on other sites

  • 5 months later...

In Statistiken > Besucher Online findet man einige IP.....

Da komme ich als Laie besser ran....

 

Wenn ich dann aber mit einigen, wiederkehrenden IPs bei whoiwho ne Abfrage machen, sagt mir das leider auch nicht so richtig viel.

Außer, z.B wenn ich z.B. sowas finde: 

descr:          Advanced Hosters B.V.
country:        US

 ich glaube solche IP kann ich getrost sperren, oder was meint ihr?

 

Ich hatte auch ein nettes Modul gefunden. Schnapper mit 30 EUR.

Hat mir aber den Shop zerschossen. Code 500

Mithilfe des Entwicklers installiert bekommen,

allerdings den Checkout zerschossen.

Zumindest läuft die Zahlseite am Ende der Bestellstreck nicht mehr seitdem.

 

Das Beste, der Entwickler antwortet nicht mehr und ich weiß nicht genau was er gemacht hat. Grrrrrr...

Link to comment
Share on other sites

Mit dem Weg Besucher Online bekommst Du

a ) nur die Besucher im letzten Zeitabschnitt ( das werden wohl Minuten sein)
b ) Alle Besucher dieses Zeitabschnittes, auch solche, die völlig unkritisch sind.

In PrestaShop wird (leider) in der Warenkorb-Anzeige keine IP angezeigt. Der effektive Weg geht also nur über Logfiles.
Ob man Deine IP aussperren soll? Keine Ahnung.
 

Link to comment
Share on other sites

Hallo - ich bin neu in Eurem Forum

Benutze PS V. 1.6.1.6 / Warehouse Theme

Habe das Problem auch mit den gefüllten Warenkörben - machmal bis zu 120'000 CHF.
Die Seite ist dann fast lahm - um den Warenkork zu öffen braucht es ca. 1- 3 Min.
Habe diesen Tread verfolgt, und alles eigentlich gemacht - htaccess und robots.txt.
Das hilft aber nicht wirlkich - er füllt munter weiter.

Habe mit mal auf dem Server die access.log angesehen - das bringt mich nicht wirlkich weiter - nur ein einziger Bandwurm.

Hat jemand eine (ich weiss es gibt keine einfachen Lösungen) ---- trotzdem ??

Vielen Dank

Link to comment
Share on other sites

Am 21.2.2018 um 5:38 PM schrieb Scully:

Mit dem Weg Besucher Online bekommst Du

a ) nur die Besucher im letzten Zeitabschnitt ( das werden wohl Minuten sein)
b ) Alle Besucher dieses Zeitabschnittes, auch solche, die völlig unkritisch sind.

In PrestaShop wird (leider) in der Warenkorb-Anzeige keine IP angezeigt. Der effektive Weg geht also nur über Logfiles.
Ob man Deine IP aussperren soll? Keine Ahnung.
 

 

Ich hatte zuletzt 37.000 Warenkörbe innerhalb eines jahres gesammelt.

 

Ich habe mir ein IP Block Modul zugelegt und eines mit dem Warenkörbe gelöscht werden können. 

(htaccess funzt bei mir nicht, da ich auf einem NGINX Server sitze...)

 

Damit bin ich dann runter auf ca. 3000 warenkörbe, die realistisch sind bzw. wozu es auch Kundennamen gibt.

Ich habe mir noch ca. 3.500 bekannte IPs von Bots besorgt und diese per Modul gesperrt.

(Auffällig geworden sind davon aber nur ca. 5 bei mir. der Rest hat noch nicht vorbeigeschaut.)

 

Hat aber nur kurz gehalten, ein paar Tage, nun werden wieder munter weiter Warenkörbe angelegt.

500 in zwei Tagen....

 

Heute habe ich mal eine Stunde live per IP Block Modul und Warenkörbe versucht nachzuvollziehen, also wer oder was besucht und anlegt.

Auf Myip.ms habe ich dann geschaut wer da so unterwegs ist bei mir.

Mittlerweile habe ich einige Google Bots selbst im Verdacht, dass diese Warenkörbe anlegen! 

Echt frustig.

 

Schade, dass dieses "Problem" die Warenkorb Ansicht echt obsolet macht, bringt mir nichts da reinzuschauen, wenn es eh alles nicht echt ist.

Link to comment
Share on other sites

So, nach ein paar Tagen (01.03. - 04.03.) empirischen Ermittlungen komme ich zum folgenden Ergebnis, mit den wenigsten Warenkörben

Folgende IP habe ich blockiert:

IP IP owner Seiten angesehen          wie oft blockiert         auf blacklist
52.91.133.239 Amazon.com, Inc 5500 2643  
63.143.42.245 Limestone Networks, Inc 1793 857  
46.229.168.67 Advanced Hosters B.v 1 341              ja
46.229.168.73 Advanced Hosters B.v 3 264              ja
46.229.168.74 Advanced Hosters B.v 1 250              ja
87.250.224.116 Yandex Llc 200 54  
54.37.85.105 Ovh Sas 1055 12

             ja

 

Alle >3000 ips von der myip.ms blacklist habe ich wieder freigegeben, wenn die nicht vorbeischauen, kann ich auch Ressourcen schonen.

Mein Verdacht bei Google Bots, z.B.  66.249.91.64 hat sich nicht bestätigt. Anzahl der angesehenen Seiten ist bei den Google Bots natürlich groß.

Weiter unter Beobachtung stehen bei mir:

80.158.21.239 Deutsche Telekom AG
195.191.14.89 Freistaat Thueringen

 

Vielleicht kann der ein oder andere damit etwas anfangen.

Ahoi

Link to comment
Share on other sites

Hallo zusammen

Danke für Eure Hilfe!
Seite ich dieses Script in die htaccrss eingebunden ahbe bleiben meine Warenköbe und die Verwaisten leer.

-------------------------------------------------------------------------------------------------------

SetEnvIfNoCase Referer "porn" spam_ref=1
SetEnvIfNoCase user-Agent ^Java.* spam_ref=1
# -- Neu
SetEnvIfNoCase user-Agent AhrefsBot spam_ref=1
SetEnvIfNoCase user-Agent SEOkicks spam_ref=1
# -- Neu
SetEnvIfNoCase user-Agent Microsoft bingbot spam_ref=1
SetEnvIfNoCase user-Agent seoscanner spam_ref=1
# -- Neu
SetEnvIfNoCase user-Agent BUbiNG spam_ref=1
SetEnvIfNoCase user-Agent Googlebot spam_ref=1

SetEnvIfNoCase user-Agent AhrefsBot spam_ref=1
SetEnvIfNoCase user-Agent majestic12 spam_ref=1
SetEnvIfNoCase user-Agent SemrushBot/1.1 spam_ref=1
SetEnvIfNoCase user-Agent OpenLinkProfiler.org spam_ref=1

(die # -- Neuen sind von mir rausgefunden worde mit Hilfe des access_log -das Programm  "Brakets" stellt das sehr gut dar - da kann man den Crawler gut erkennen - strukturiert)

-------------------------------------------------------------------------------------------------------

Das mit den IP Adressen hat nicht wirklich gefunkt. Die wechseln so schnell - da kommt man nicht nach mit eintragen.

Seit ich den Crawler beim Namen nennen kann - DU raus hier - bleiben meine Warenkörbe leer. - und das seit 3-4 Tagen - mal sehen.

Asta la Vista
Für mich - erfüllt!

  • Like 1
Link to comment
Share on other sites

....Aber die Bots hast Du trotzdem auf Deinem Server.....

Da stimme ich Dir voll zu, mir wäre es auch lieber sowas gleich rauszuhalten bevor die irgendwas füllen oder durchsuchen  :) War aber halt eine Idee, da das genannte Modul ganz gut zu funktionieren scheint und man könnte es ja per Cronjob ansteuern oder?

....auch wenn ich das Löschen von solchen Dingen eigentlich nicht in die Hände eines Moduls und Cronjobs legen möchte, irgendwie bin ich da zuviel Kontrollfreak.  Aber hunderte/tausende manuell zu löschen ist auch nichts.

Ich werde mir das mal ansehen wenn wir mit dem Shop live sind ob dann viel derartiges Zeugs anfällt oder nicht, und daher vielen Dank wenn wir hier in dem Thema auf dem laufenden bleiben würden.  Die Probleme mit Bots, Spam über Kontaktformular u.a. scheinen ja nicht weniger zu werden.

Habe hier noch weitere Infos und viell. Möglichkeiten gefunden:  https://www.askapache.com/htaccess/setenvif/ 

 

Edited by DRMasterChief (see edit history)
Link to comment
Share on other sites

  • 4 months later...
On 1.3.2018 at 6:57 PM, bleumel said:

Ich hatte zuletzt 37.000 Warenkörbe innerhalb eines jahres gesammelt.

 

Ich habe mir ein IP Block Modul zugelegt

Welches Modul hast Du genau gekauft? Ich habe das Problem vieler "Spambesuche" von blacklisted IPs, die aber keine Warenkörbe anlegen!

Ich habe Prestashop 1.7x laufen

Link to comment
Share on other sites

  • 1 year later...

Mal eine Verständisfrage, bei uns liegt auf dem Server unter web/ unsere allgemeine Webseite und unter web/store/ der Webshop. Reicht es die ganzen Einträge in der .htaccess & robots.txt vom web/ Verzeichniss einzutragen oder muss man dies auch für das Webshop Verzeichniss (web/store/) und deren .htaccess & robots.txt auch eintragen?

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...