Ergebnis 1 bis 4 von 4

Thema: Mit Javascript erzeugten Content abfangen und crawlen

  1. #1
    Senior Avatar von Uranjitsu
    Registriert
    May 2016
    Beiträge
    207
    Gefällt mir!
    223
    Du gefällst: 158

    Mit Javascript erzeugten Content abfangen und crawlen

    Hallo zusammen,

    ich versuche hier einen Teil abzugangen: https://safelinking.net/RcAPA6B

    Ruft man den Link auf, wird die Seite via Javascript aufgebaut.
    Schaut man sich nun den "Quelltext" an, wird man sehen, dass dieser kaum Informationen enthält bzw. nicht diese, die man abfangen möchte.

    In diesem Beispiel, möchte ich aber einen bestimmten Bereich abfangen (Rot makiert):
    Mittels "Auswahl Quelltext" oder "Element untersuchen" wird dieser angezeigt.
    Code:
                        <div class="innerAll bg-gray border-bottom">
                            <i class="fa fa-cloud"></i> Status:
                            <span class="label ng-binding label-primary" ng-class="'label-' + (info.status|linkClass)">UNKNOWN</span>
                            <span ng-show="info.lastChecked" class="ng-binding">Last checked 12/17/16 1:14 PM UTC</span>
                            <a ng-show="info.isMine" class="label label-danger ng-hide" ui-sref="ucp.form.linkDetails({hash:linkHash})" href="/ucp/links/RcAPA6B">MANAGE THIS LINK</a>
                        </div>
    Wie oben beschrieben, wird der nötoge Quelltext dann beim cUrl oder file_get_content nicht angezeigt.
    Hat jemand eine Idee, wie man an den letztendlich aufgebauten Code herankommt?

    LG

  2. Werbung - Hier werben?
  3. #2
    Junior
    Registriert
    Jul 2016
    Beiträge
    40
    Gefällt mir!
    2
    Du gefällst: 10
    Das "sauberste", eine Lösung die auch bei Änderungen / anderen Seiten funktioniert, wäre das Einbinden von HtmlUnit oder der Erweiterung V8js für PHP. Habe jedoch bisher mit keinen von beiden Libs gearbeitet.

    Alternativ ist das sehr gut mit cheerio lösbar.Jedoch auf node.js basis. Hab ich selbst getestet. Geht gut.

    Update:
    - gerade gemerkt das es auch jsdom tut. Du brauchst ja kein jQuery. Da ist cheerio überdimensioniert
    - die API würde ich einfachheit halber vorziehen (habe nicht gewusst , dass es eine API gibt)
    Geändert von xmasta4000 (18.12.2016 um 08:37 Uhr)

  4. Diesen Mitgliedern gefällt dieser Beitrag:


  5. #3
    Junior
    Registriert
    Jan 2016
    Beiträge
    45
    Gefällt mir!
    19
    Du gefällst: 17
    Da du ja eigentlich nur den Status wissen willst, würde ich deren Checker benutzen:
    Code:
    https://safelinking.net/check?link=https://safelinking.net/RcAPA6B
    Gibt dies zurück:
    Code:
    <?xml version='1.0' encoding='UTF-8' standalone='yes' ?>
    <response>
    <link_status>Unknown</link_status>
    <title>uploaded.net</title>
    <host>Ul.to</host>
    </response>

  6. Diesen Mitgliedern gefällt dieser Beitrag:


  7. #4
    Senior
    THEMENSTARTER

    Avatar von Uranjitsu
    Registriert
    May 2016
    Beiträge
    207
    Gefällt mir!
    223
    Du gefällst: 158
    Der Checker ist mir zu langsam. Curlen ginge schneller, bisher setze ich den Checker ein.

Ähnliche Themen

  1. Usenet Indexer for Deutschsprachigen Content
    Von Dannyb90 im Forum Szene Daily Talk & OffTopic
    Antworten: 14
    Letzter Beitrag: 06.04.2022, 18:06
  2. (Suche) - Javascript / CSS Coder für Umbau eines kleinen Tools | BTC/€/$
    Von kurbanus im Forum Entwickler / IT-Techniker
    Antworten: 2
    Letzter Beitrag: 29.07.2020, 18:18
  3. SSL Mixed Content (+ Cloudflare)
    Von Dave im Forum Webmaster Daily Talk & OffTopic
    Antworten: 11
    Letzter Beitrag: 25.05.2018, 08:52
  4. (JavaScript) - Javascript Regex
    Von darkness im Forum Entwicklung / Programmierung
    Antworten: 7
    Letzter Beitrag: 14.12.2016, 16:51

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •  
SzeneBox.org... im Mittelpunkt der Szene!
© since 2015 szeneBOX.org - All Rights Reserved
Domains: www.szenebox.org