Ergebnis 1 bis 9 von 9

Thema: Crawler optimieren?

Baum-Darstellung

  1. #9
    Senior Avatar von maz
    Registriert
    Jan 2016
    Beiträge
    529
    Gefällt mir!
    206
    Du gefällst: 428
    An sich ist der Lösungsansatz ja nicht so verkehrt, das Prblem dürfte aber sein, dass der entsprechende Amazon Artikel gar nicht gefunden wird. (So verstehe ich zumindest das Ausgangsproblem). Und dazu würd ich einfach die Google API nutzen, da Google sehr schlaue logarithmen für genau dieses Problem im Einsatz hat und vermutlich niemand auch nur was ähnlich gutes selbst schreiben kann.

    Der Code würde in etwa so aussehen:
    <?php

    $search = 'Russisches Mädchen, Thriller von B.C. Schiller';
    $sites = 'amazon.de';
    $url = "http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=site:".$sites."%20".urlencode($search) ;

    $body = file_get_contents($url);
    $json = json_decode($body);

    for($x=0;$x<count($json->responseData->results);$x++){
    echo "<b>Result ".($x+1)."</b>";
    echo "<br>URL: ";
    echo $json->responseData->results[$x]->url;
    echo "<br>Title: ";
    echo $json->responseData->results[$x]->title;
    echo "<br><br>";
    }
    ?>
    Damit findest du bei Amazon das gewünschte sicher schon mal. Dann musst du nur noch den Amazon Titel auslesen
    Danach nimmst du entweder similar_text() oder was ich besser finde in deinem Fall levenshtein() um den Titel mit deinem abzugleichen. levenshtein() gibt dir die Anzahl Zeichen die anders sind als Int zurück. Dann liest du noch die geammtlänge des Titels aus und kombinierst das ganze schlau, zB dass erst ab einer Länge von 5 ein Fehler auftreten darf und ab einer von 10, 2 Fehler oder irgend so was. Deine beiden Beispiele liefern zB beide eine 2 als Rückgabewert. Ach ja und wie bereits vorgeschlagen das ganze noch mit einem strtolower() verfeinern.

    EDIT: Evt ist der Google Ansatz völlig unnötig, vermutlich machst du die Suche ja schon über die Amazon API und die ist kaum schlechter.
    Geändert von maz (18.02.2016 um 02:11 Uhr)

Ähnliche Themen

  1. Rclone / Plex optimieren
    Von ChAiN SaW im Forum Technik / Hardware & Software
    Antworten: 23
    Letzter Beitrag: 11.03.2023, 13:16
  2. Crawler Probleme
    Von schneewittchen im Forum IntelligeN
    Antworten: 31
    Letzter Beitrag: 25.10.2021, 21:08
  3. Filmwiedergabe optimieren (NAS, Apple TV)
    Von Anteil im Forum Technik / Hardware & Software
    Antworten: 14
    Letzter Beitrag: 30.06.2021, 07:20
  4. (Suche) - Webseite: Script Bugs entfernen und optimieren (PHP?)
    Von Blackbird im Forum Entwickler / IT-Techniker
    Antworten: 2
    Letzter Beitrag: 02.12.2018, 19:07
  5. (PHP) - Crawler optimieren (Schneller!?)
    Von Uranjitsu im Forum Entwicklung / Programmierung
    Antworten: 18
    Letzter Beitrag: 23.08.2018, 13:20

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •  
SzeneBox.org... im Mittelpunkt der Szene!
© since 2015 szeneBOX.org - All Rights Reserved
Domains: www.szenebox.org