Scrapy
2 minuty czytania
Scrapy to framework open source napisany w języku Python, służący do przetwarzania danych z witryn internetowych. Jest to narzędzie przeznaczone dla web scraping, czyli automatyzowanego pobierania danych z witryn internetowych.
Często programując korzystamy z dostępnych API, które dostarczają nam potrzebne dane do naszej aplikacji. Przykładowo budując aplikację, która będzie nam ukazywać aktualną pogodę, musimy skądś te dane wziąć i najczęściej korzystamy z dostępnych API na rynku, ale co w przypadku kiedy nie znajdziemy interesującego nas API. Właśnie w takim przypadku warto rozważyć, scrapowanie stron. W tym artykule przedstawię właśnie narzędzie, które pomoże nam w scrapowaniu stron.
Czym jest scrapowanie stron?
Scrapowanie stron jest to nic innego niż wyciąganie jakiejś zawartości strony i zapisywanie tych danych w celu np. wykorzystania ich w swojej aplikacji. Scrapowanie stron wykorzystują takie serwisy jak np. ceneo, google, czy też portale zbierające oferty pracy z innych portali. Pamiętajmy, że to co robimy później z takimi danymi może być czasami nielegalne.
Co to jest Scrapy?
Scrapy jest frameworkiem do języka Python i jest on najpopularniejszym i najbardziej rozbudowanym narzędziem do scrapowania stron internetowych. Scrapy dostarcza wszystkie niezbędne narzędzia potrzebne do efektywnego wydobywania danych ze stron, przetwarzania ich i przechowywania w preferowanej strukturze i formacie. Scrapy jest łatwy do użycia, posiada obsługę żądań asynchronicznych, a ponadto automatycznie dostosowuje prędkość indeksowania za pomocą mechanizmu “Auto-throttling”.
Scrapy Spider
Najważniejszą częścią w Scrapy są klasy Spider. Scrapy używa ich do zbierania informacji ze strony internetowej. Definiują one w jaki sposób nasz Spider ma wydobywać dane ze strony.
Przykładowa klasa Spidera, która wydobywa cytaty ze strony.
import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
start_urls = [
'https://quotes.toscrape.com/tag/humor/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'author': quote.xpath('span/small/text()').get(),
'text': quote.css('span.text::text').get(),
}
next_page = response.css('li.next a::attr("href")').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
Taki kod zapisujemy do pliku “quotes_spider.py” i odpalamy naszego bota do scrapowania komendą:
scrapy runspider quotes_spider.py -o quotes.jl
Kiedy nasz bot skończy swoją pracę powinniśmy otrzymać plik “quotes.jl”, który będzie zawierać listę cytatów zapisanych w formacie json.
{"author": "Jane Austen", "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"}
{"author": "Steve Martin", "text": "\u201cA day without sunshine is like, you know, night.\u201d"}
{"author": "Garrison Keillor", "text": "\u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.\u201d"}
...
Nasza oferta
Web development
Dowiedz się więcejMobile development
Dowiedz się więcejE-commerce
Dowiedz się więcejProjektowanie UX/UI
Dowiedz się więcejOutsourcing
Dowiedz się więcejPowiązane artykuły
Networking w IT: jak skutecznie budować i utrzymywać sieć profesjonalnych kontaktów?
13 gru 2024
Networking w IT to kluczowy element kształtowania kariery zawodowej. W dobie dynamicznej cyfrowej transformacji, utrzymywanie sieci profesjonalnych kontaktów staje się niezbędnym narzędziem. Umożliwia wymianę doświadczeń, dzielenie się wiedzą i odkrywanie nowych możliwości. Ale jak skutecznie budować i utrzymywać te relacje? Czytaj dalej, aby dowiedzieć się więcej.
One-pager - Czy warto? Analiza zalet i wad stron internetowych w jednym oknie
13 gru 2024
One-pager to termin, który oznacza stronę internetową składającą się tylko z jednej podstrony. Czy to udogodnienie dla użytkownika czy może jednak problem? Poznajmy zalety i wady tej konstrukcji w kontekście potrzeb biznesowych i oczekiwań odbiorców. Nasza analiza pomoże Ci zdecydować, czy warto inwestować w one-pagery.
Kerning a percepcja tekstu: Oddziaływanie odpowiednich odstępów między literami na czytelność
13 gru 2024
Kerning, termin niewielu znanym poza branżą graficzną, odgrywa kluczową rolę w czytelności tekstu. Odpowiednio dobrane odstępy między literami potrafią nie tylko poprawić estetykę całego dzieła, ale także znacznie wpływają na postrzeganie i przyswajanie treści. Analizując to zjawisko, zrozumiesz, jak subtelne zmiany mogą generować wielkie efekty.
Dark Patterns: Zrozumienie ich natury i konsekwencji ich stosowania
12 gru 2024
Dark Patterns - to manipulacyjne techniki projektowania, które mają na celu skłonienie użytkowników do podejmowania działań niezgodnych z ich wolą. Chociaż powszechne w cyfrowym ekosystemie, ich natura i konsekwencje są często niedoceniane. Czy te praktyki są etycznie poprawne, czy może istnieje granica, której nie powinno się przekraczać? To pytania, które próbujemy odpowiedzieć w tym artykule.
Duże modele językowe (LLM): Mechanizm działania i znaczenie dla przełomu w dziedzinie sztucznej inteligencji
12 gru 2024
W świecie AI, duże modele językowe (LLM) stają się kluczowym elementem ewolucji. Pozwalają maszynom na naturalne 'rozumienie' i generowanie języka ludzkiego. Na czym jednak polega ich działanie? Jak wpłynęły na przełom w sztucznej inteligencji? Sprawdźmy to!
Jak zbudować naturalny profil linków: Najlepsze praktyki
12 gru 2024
Profilowanie linków to kluczowy element skutecznej optymalizacji SEO. W artykule przedstawimy strategie i metody, które pomogą Ci wykorzystać pełny potencjał Twojej strony internetowej. Dowiedz się, jak prawidłowo, a przede wszystkim - naturalnie budować profil linków dla Twojego serwisu.
Wprowadzenie do analizy PESTEL: Narzędzie strategiczne w biznesie
11 gru 2024
Strategiczna analiza biznesu to nieodłączny element prowadzenia firmy. Jednym z jej kluczowych narzędzi jest PESTEL, dający gruntowne spojrzenie na otoczenie biznesowe firmy. Pozwala to na efektywne pozycjonowanie firmy na rynku, dostosowywanie strategii, a także minimalizowanie ryzyka biznesowego.
Zobacz wszystkie artykuły