PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : (Python) - Cached cloudflare-scrape daten?



darkness
05.09.2018, 15:43
Hallo,

hat jemand von euch bereits mit dem Python "Plugin" cloudflare-scrape gearbeitet?

Ich habe eine .py die den Content einer Seite holt die ich via .py -l ... übergebe.
Ausgeführt wird die py über exec (PHP) (python C:/get_data.py -l https://ddl...)

Scheinbar cached exec oder aber cloudflare-scrape die Rückgabe der Seite. Ich bekomme obwohl ich einen anderen Link übergebe immer die Daten vom ersten Link zurück.

Beispiel Rückgabe:



[info] Just sleeping for 7 Seconds
[info] requesting data for https://.../Eminem_-_Kamikaze/
Array
(
[title] => Marteria & Casper - 1982
[genre] => Hip-Hop/Rap
[kategorie] => Alben
[cover] => https://img2.oloimages.org/image/dligowcl/u9vhqrkd.jpg
[links] => Array
(
[0] => http://www.share-online.biz/dl/xxxxxxxxx
)

)

Jemand ne Idee

Nimbus
05.09.2018, 16:05
Mein Gefühl sagt mir, dass du einen falschen Link übergibst oder die falsche Rückgabe verarbeitest.

Aus dem Kopf heraus behaupte ich, dass kein (zusätzliches) Cacing durch die Lib vorgenommen wird. Kannst den Code ja selbst mal einsehen (ist ja nicht sehr umfangreich).

darkness
05.09.2018, 16:18
Hab ich auch gedacht ...


C:\Users\Kai>php C:\xampp\htdocs\music\queue.php
[info] requesting data for https://xxxx/Eminem_-_Kamikaze_iTunes/
string(62) "https://xxxx/Eminem_-_Kamikaze_iTunes/"

string(62) das was bei python ankommt

johnblacks
05.09.2018, 16:35
Die Seite von der du scrapest, hat gerade "Marteria & Casper - 1982" als "ALBUM DER WOCHE" im Header. Kann es sein, dass dein Script davon verwirrt ist, und zumindest den falschen Titel findet?

Geh sehr stark davon aus, dass es irgendwie damit zusammenhängt, da cloudflare-scrape an sich garnichts cachen kann.

darkness
05.09.2018, 16:50
Hm. Kurz hab ich gedacht daran könnte es liegen. Aber die Links, genre etc sind auch immer gleich. Außerdem wird der title aus dem seiten title gefischt und der ist auf der startseite anders...

Thanks @ fluffy für den scraper ... Leider hat der diesen Bug :/

Nimbus
05.09.2018, 19:31
Zeig uns doch mal deinen Code, sonst müssen wir hier weiter wahllos Unsinn unterstellen, den du eventuell gemacht haben könntest.

pythonfreak
06.09.2018, 01:47
Also das plugin macht nix anderes wie im Browser, 5 Sekunden warten (die Zeit lässt sich im script ändern) und dann wird die Seite geöffnet... Hier mal ein Beispiel ohne cookies, requests, user-agent etc...


import cfscrape

scraper = cfscrape.create_scraper()
content = scraper.get("https://boerse.to").content
print content