Semalt - Ako zoškrabať webové stránky?

Beautiful Soup je knižnica Python, ktorá sa bežne používa na zoškrabovanie webových stránok vytvorením stromu analýzy z dokumentov XML a HTML. Šrotovanie na webe, technika získavania údajov z webových stránok a stránok, sa v oblasti analýzy údajov a správy často používa. Vo väčšine prípadov je programovací jazyk Python predpokladom vo vede údajov.

Python 3 obsahuje nástroje a moduly na zoškrabovanie, ktoré môžete použiť v projekte správy údajov. V súčasnosti je tento modul kompatibilný s programami Python 3 a Python 2.7. Modul Beautiful Soup 4 je tiež schopný vytvoriť strom analýzy pre neuzatvorenú polievku so značkou. V tomto návode sa naučíte, ako zoškrabať stránku a zapísať zoškrabané údaje do súboru CSV.

Začíname

Ak chcete začať, nastavte v počítači serverové alebo miestne kódovacie prostredie Python. Na počítač by ste mali nainštalovať aj modul Krásna polievka a požiadavky. Znalosť práce s oboma modulmi je tiež nevyhnutným predpokladom. Ďalšou výhodou je aj znalosť značkovania a štruktúry HTML.

Pochopenie vašich údajov

V tejto súvislosti sa použijú reálne údaje z Národnej galérie umenia, ktoré vám pomôžu porozumieť tomu, ako používať Krásnu polievku 4. Národná galéria umenia pozostáva zo 120 000 kusov, ktoré vyrobilo približne 13 000 umelcov. Umenie sídli vo Washingtone DC v Spojených štátoch.

Extrakcia webových údajov pomocou technológie Beautiful Soup nie je tak zložitá. Napríklad, ak sa zameriavate na písmeno Z, označte a zapíšte si meno v zozname. V tomto prípade je meno Zabaglia, Niccola. V záujme konzistentnosti uveďte počet strán a meno posledného interpreta na tejto stránke.

Ako importovať knižnicu Žiadosti a krásna polievka

Ak chcete importovať knižnice, aktivujte svoje programovacie prostredie Python 3. Skontrolujte, či ste v rovnakom adresári ako vaše programovacie prostredie. Spustite nasledujúci príkaz, aby ste mohli začať. my_env / bin / aktivovať.

Vytvorte nový súbor a začnite importovať knižnice Beautiful Soup and Requests. Knižnica požiadaviek vám umožní používať HTTP v rámci vašich programov Python v čitateľných formátoch. Krásna polievka na druhej strane pracuje na rýchlom zoškrabaní stránok. Na import Beautiful Soup použite bs4.

Ako zhromažďovať a analyzovať webovú stránku

Pomocou žiadostí zhromažďujte adresu URL svojej prvej stránky. Adresa URL prvej stránky bude priradená premennej stránke. Zostavte objekt BeautifulSoup z Žiadostí a analyzujte objekt z syntaktického analyzátora Pythonu.

V tomto návode je cieľom zhromaždiť odkazy a mená umelcov. Napríklad môžete zbierať dátumy a národnosti umelcov. Pre používateľov Windows kliknite pravým tlačidlom na meno interpreta. V takom prípade použite Zabaglia, Niccola. Pre používateľov Mac OS klepnite na „CTRL“ a kliknite na meno. Kliknutím na ponuku „Skontrolovať prvok“, ktorá sa objaví na obrazovke, získate prístup k nástrojom vývojárov webu. Vytlačte si mená interpretov, aby sa polievka Beautiful Soup rýchlo rozpadla na strom.

Odstránenie spodných odkazov

Ak chcete odstrániť spodné odkazy na svojej webovej stránke, skontrolujte DOM kliknutím pravým tlačidlom myši na prvok. Zistíte, že odkazy sú pod tabuľkou HTML. Pomocou krásnej polievky použite metódu rozkladu na odstránenie značiek zo stromu analýzy.

Ako vytiahnuť obsah zo značky

Nemusíte tlačiť celú značku odkazu, na odstránenie materiálu zo značky použite Krásnu polievku. Pomocou programu Beautiful Soup 4 môžete tiež zachytávať adresy URL spojené s umelcami.

Zachytávanie zoškrabaných údajov do súboru CSV

Súbor CSV vám umožní ukladať štruktúrované údaje vo formáte obyčajného textu, ktorý sa väčšinou používa pre katalógové listy. Odporúča sa znalosť zaobchádzania s obyčajnými textovými súbormi v Pythone.

Extrakcia webových údajov sa používa na zoškrabovanie stránok a získanie informácií. Dávajte pozor na webové stránky, z ktorých získavate informácie. Niektoré dynamické webové stránky obmedzujú získavanie webových údajov na svojich stránkach. Škriabať stránku pomocou Beautiful Soup a Python 3 je také jednoduché.