Semalt - Wéi Websäiten ze schrauwen?

Schéin Soup ass eng Python Bibliothéik déi vill benotzt gëtt fir Websäiten ze schrauwen andeems en e Parse Bam aus XML an HTML Dokumenter erstellt. Web Scraping, eng Technik fir Daten aus Websäiten a Säiten ze extrahéieren, gëtt vill an Datenanalyse a Managementfelder benotzt. In de meeschte Fäll ass d'Python Programméierungssprooch eng Viraussetzung an der Datewëssenschaft.

Python 3 huet Scraping Tools a Moduler déi Dir op Äre Datemanagement-Projet benotze kënnt. De Moment als Beautiful Soup 4 leeft, ass dëse Modul kompatibel mat Python 3 wéi och Python 2.7. Schéin Soup 4 Modul ass och fäeg fir e Parse Bam fir net zougemaach Tag Suppe ze kreéieren. An dësem Tutorial léiert Dir wéi dës Säit ze schrauwen a geschraufte Daten an eng CSV Datei schreift.

Ufänken

Fir unzefänken, setzt e Server oder e lokalt-baséiert Python-Kodéierungsëmfeld op Ärem PC. Dir sollt och Beautiful Soup and Requests Modul op Ärer Maschinn installéieren. D'Wësse fir mat béide Moduler ze schaffen ass och eng noutwendeg Viraussetzung. Bekannte mat HTML Tagging a Struktur ass och e zousätzleche Virdeel.

Versteesdemech Är Donnéeën

An dësem Kontext ginn reell Daten vun der National Gallery of Art fir Iech ze hëllefen ze verstoen wéi Dir schéi Soup 4. National Gallery of Art besteet aus 120.000 Stécker, déi vun ongeféier 13.000 Artiste gemaach gi sinn. D'Konscht baséiert zu Washington DC, USA.

Webdaten Extraktioun mat Schéi Soup ass net sou komplizéiert. Zum Beispill, wann Dir op de Bréif Z fokusséiert, markéiert a notéiert den Virnumm op der Lëscht. An dësem Fall ass den Virnumm Zabaglia, Niccola. Fir Konsistenz, gitt d'Zuel vun de Säiten an den Numm vum leschte Kënschtler op där Säit un.

Wéi importéiert Ufroen a Schéin Zoppbibliothéik

Fir Bibliothéiken z'importéieren, aktivéiert Äre Python 3 Programméierungsëmfeld. Préift fir sécherzestellen datt Dir am selwechte Verzeechnes mat Ärem programméiere Ëmfeld sidd. Run de folgenden Kommando fir unzefänken. my_env / bin / aktivéieren.

Maacht eng nei Datei a fänkt u Schéin Soup z'importéieren an d'Bibliothéiken ufroen. Ufro Bibliothéik erlaabt Iech HTTP an Ären Python Programmer a liesbar Formater ze benotzen. Schéin Supp, op der anerer Säit, schafft Säiten séier auszeschrauwen. Benotzt bs4 fir Beautiful Soup z'importéieren.

Wéi Dir eng Websäit sammelt a paréiert

Benotzt Ufroe sammelen d'URL vun Ärer éischter Säit. URL vun der éischter Säit gëtt op d'Variabel Säit zougewisen. Bauen e BeautifulSoup Objet aus Ufroen a paréiert den Objet aus dem Python seng Parser.

An dësem Tutorial ass d'Zil et Links ze sammelen an d'Nimm vun den Artisten. Zum Beispill, Dir kënnt Kënschtlerdatoen an Nationalitéiten sammelen. Fir Windows Benotzer klickt riets op de Virnumm vum Kënschtler. An dësem Fall benotzt Zabaglia, Niccola. Fir Mac OS Benotzer, tippen op "CTRL" a klickt den Numm. Klickt op de Menü "Inspektéieren Element" datt Pop-ups op Ärem Écran fir Zougang zu Tools vun den Webentwéckler kréien. Dréckt de Kënschtler d'Nimm aus fir Schéin Soup Parse e Bam ze maachen.

Déi ënnescht Links erofhuelen

Fir déi ënnescht Links op Ärer Websäit ze läschen, inspizeiert d'DOM andeems Dir mam Element mat riets klickt. Dir wäert identifizéieren datt d'Links ënner engem HTML Dësch stinn. Mat Schéi Soup benotzt Dir d '"Zerfall Method" fir Tags aus dem Parse Bam ze läschen.

Wéi zitt een Inhalt aus engem Tag

Dir musst net de ganze Link Tag drécken, benotzt Beautiful Soup fir Material aus engem Tag ze läschen. Dir kënnt och URLen erfëllen déi mat den Artiste verbonne sinn andeems Dir Beautiful Soup 4 benotzt.

Sammelt gescrapte Daten an eng CSV Datei

CSV Datei erlaabt Iech strukturéiert Daten an engem einfachen Text ze späicheren, e Format dat meeschtens fir Dateblieder benotzt gëtt. Wëssen iwwer d'Handlung vun Einfache Textdateien am Python ass recommandéiert.

Webdatextraktioun gëtt benotzt fir Säiten ze schrauwen an Informatiounen ze kréien. Bitt berücksichtegt vun de Websäiten aus deenen Dir Extraktiounsinformatioune kritt. E puer dynamesch Websäiten beschränken d'Webdaten Extraktioun op hire Site. Säit mat Beautiful Soup a Python 3 ze schrauwen ass sou einfach.