logo
  • Proces
  • Case studies
  • Blog
  • O nas
Napisz do nas
  1. Strona główna

  2. /

    Blog

  3. /

    Scrapy

Scrapy

3 minuty czytania

Tomasz Kozon

Scrapy to framework open source napisany w języku Python, służący do przetwarzania danych z witryn internetowych. Jest to narzędzie przeznaczone dla web scraping, czyli automatyzowanego pobierania danych z witryn internetowych.

Spis treści

Czym jest scrapowanie stron?

Co to jest Scrapy?

Scrapy Spider

Parse – jak przetwarzać dane?

Zarządzanie sesjami i cookies

Scrapy i XPath – wydobywanie danych ze stron

Scrapy ikona

Ostatnie oferty pracy

Full-Stack JS Developer (Node + React)

B2B:

8000 - 13000 PLN netto +VAT

Pokaż wszystkie oferty

Często programując korzystamy z dostępnych API, które dostarczają nam potrzebne dane do naszej aplikacji. Przykładowo budując aplikację, która będzie nam ukazywać aktualną pogodę, musimy skądś te dane wziąć i najczęściej korzystamy z dostępnych API na rynku, ale co w przypadku kiedy nie znajdziemy interesującego nas API. Właśnie w takim przypadku warto rozważyć, scrapowanie stron. W tym artykule przedstawię właśnie narzędzie, które pomoże nam w scrapowaniu stron.

scrapy

Czym jest scrapowanie stron?

Scrapowanie stron jest to nic innego niż wyciąganie jakiejś zawartości strony i zapisywanie tych danych w celu np. wykorzystania ich w swojej aplikacji. Scrapowanie stron wykorzystują takie serwisy jak np. ceneo, google, czy też portale zbierające oferty pracy z innych portali. Pamiętajmy, że to co robimy później z takimi danymi może być czasami nielegalne.

 

Czy szukasz wykonawcy Scrapy ?
logo
Sprawdź case studies

Co to jest Scrapy?

Scrapy jest frameworkiem do języka Python i jest on najpopularniejszym i najbardziej rozbudowanym narzędziem do scrapowania stron internetowych. Scrapy dostarcza wszystkie niezbędne narzędzia potrzebne do efektywnego wydobywania danych ze stron, przetwarzania ich i przechowywania w preferowanej strukturze i formacie. Scrapy jest łatwy do użycia, posiada obsługę żądań asynchronicznych, a ponadto automatycznie dostosowuje prędkość indeksowania za pomocą mechanizmu “Auto-throttling”.

 

Scrapy Spider

Najważniejszą częścią w Scrapy są klasy Spider. Scrapy używa ich do zbierania informacji ze strony internetowej. Definiują one w jaki sposób nasz Spider ma wydobywać dane ze strony.

 

Przykładowa klasa Spidera, która wydobywa cytaty ze strony.

 

import scrapy
class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'https://quotes.toscrape.com/tag/humor/',
    ]
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'author': quote.xpath('span/small/text()').get(),
                'text': quote.css('span.text::text').get(),
            }
        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

 

Taki kod zapisujemy do pliku “quotes_spider.py” i odpalamy naszego bota do scrapowania komendą:

 

scrapy runspider quotes_spider.py -o quotes.jl

 

Kiedy nasz bot skończy swoją pracę powinniśmy otrzymać plik “quotes.jl”, który będzie zawierać listę cytatów zapisanych w formacie json.

 

{"author": "Jane Austen", "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"}
{"author": "Steve Martin", "text": "\u201cA day without sunshine is like, you know, night.\u201d"}
{"author": "Garrison Keillor", "text": "\u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.\u201d"}
...

 

Parse – jak przetwarzać dane?

Scrapy oferuje elastyczne metody przetwarzania danych pobranych z witryn internetowych. Kluczowym elementem tego procesu jest metoda parse, która analizuje odpowiedź zwróconą przez serwer i pozwala na wydobycie interesujących informacji. Scrapy automatycznie obsługuje żądania HTTP i przekazuje odpowiedź do tej metody, gdzie można ją przetwarzać według własnych potrzeb. Metoda parse pozwala na nawigowanie po strukturze strony oraz wybieranie konkretnych elementów za pomocą narzędzi takich jak XPath czy CSS Selectors. Możliwe jest także generowanie kolejnych żądań do innych podstron oraz przechowywanie danych w formatach takich jak JSON czy CSV. Dzięki temu Scrapy jest potężnym narzędziem do scrapowania i automatycznej ekstrakcji informacji z dużych zbiorów danych.

 

Zarządzanie sesjami i cookies

Podczas scrapowania stron internetowych często konieczne jest zarządzanie sesjami i plikami cookies, które pozwalają na utrzymanie stanu użytkownika. Wiele stron wymaga autoryzacji lub śledzi aktywność użytkownika za pomocą plików cookie, dlatego prawidłowa ich obsługa w Scrapy jest kluczowa.

 

Scrapy automatycznie przechowuje i przesyła pliki cookie dla każdej domeny, co ułatwia scrapowanie stron, które wymagają zalogowania lub utrzymania sesji. Możliwe jest także ręczne zarządzanie plikami cookie poprzez modyfikowanie nagłówków żądań, co daje większą kontrolę nad interakcją ze stroną. W bardziej zaawansowanych przypadkach można korzystać z pośredników (middleware), aby dostosować zachowanie frameworka do specyficznych wymagań serwera docelowego.

SPRAWDŹ SWOJĄ WIEDZE Z TEMATU scrapy

Pytanie

 1/5

Jakiej klasy należy użyć jako podstawy podczas definiowania nowej pająkowej klasy w Scrapy?

Jakiej metody należy użyć do zdefiniowania, jakie żądania HTTP powinny zostać wysłane przez pająka Scrapy?

Jaką klasę powinno się użyć, aby zdefiniować niestandardowy element środkowy (middleware) w Scrapy?

Jaka metoda Scrapy służy do wyodrębniania danych z odpowiedzi HTTP i przekazania ich do potoku?

Jak nazywa się wbudowany selektor CSS w Scrapy, który ułatwia wyodrębnianie danych z dokumentów HTML?

Scrapy i XPath – wydobywanie danych ze stron

XPath to jedno z najpotężniejszych narzędzi do nawigacji po strukturze stron HTML i XML. W Scrapy można go wykorzystać do precyzyjnego wydobywania danych, takich jak teksty, linki, obrazy czy atrybuty elementów. XPath pozwala na poruszanie się po drzewie DOM strony internetowej i selektywne wybieranie tylko tych fragmentów kodu, które są istotne dla analizy.

 

Dzięki XPath możliwe jest filtrowanie elementów na podstawie ich atrybutów, pozycji w strukturze dokumentu lub zawartości tekstowej. To szczególnie przydatne przy pracy ze stronami o skomplikowanej budowie, gdzie tradycyjne selektory CSS mogą nie być wystarczająco precyzyjne. W połączeniu z Scrapy, XPath pozwala na efektywne pobieranie danych z dynamicznych i statycznych stron internetowych, co czyni go niezwykle przydatnym narzędziem w procesie web scrapingu.

Nasza oferta

Web development

Dowiedz się więcej

Mobile development

Dowiedz się więcej

E-commerce

Dowiedz się więcej

Projektowanie UX/UI

Dowiedz się więcej

Outsourcing

Dowiedz się więcej

SEO

Dowiedz się więcej

Powiązane artykuły

Web scraping - co to jest i jak działa?

23 maj 2023

Web scraping to technika pozyskiwania danych z stron internetowych. Polega na przeszukiwaniu kodu HTML i wyodrębnieniu żądanych informacji. Najczęściej stosuje się ją w celach badawczych lub biznesowych. Istnieją specjalne narzędzia ułatwiające tę pracę, ale proces może być też wykonany ręcznie.

Tomasz Kozon

#bigdata

related-article-image-web scraping

Motion UX: Kluczowe znaczenie dynamiki w projektowaniu interfejsów użytkownika

13 cze 2025

W coraz bardziej zaawansowanym świecie cyfrowym, dynamika staje się nieodzownym elementem projektowania interfejsów użytkownika. Motion UX bierze tę koncepcję krok dalej, ułatwiając płynność ruchu i interakcji. Kluczowe znaczenie tej techniki polega na poprawie doświadczeń użytkowników, dzięki czemu interfejsy są bardziej intuicyjne i angażujące.

Tomasz Kozon

#web-design

BitBar: Czym jest i jak on rewolucjonizuje kompleksowe testowanie aplikacji mobilnych w chmurze

12 cze 2025

W świecie dynamicznie rozwijających się aplikacji mobilnych, niezawodność i szybkość testowania stają się kluczowymi elementami sukcesu. BitBar to zaawansowane narzędzie do testowania aplikacji mobilnych w chmurze, które umożliwia przeprowadzanie testów na setkach rzeczywistych urządzeń w sposób zautomatyzowany i skalowalny.

Tomasz Kozon

#testing

Dwell Time: Klucz do zrozumienia i strategii zwiększania zaangażowania użytkowników

11 cze 2025

Zaangażowanie użytkowników to kluczowy element rozwoju każdego serwisu internetowego. Jednym z istotnych wskaźników jest 'Dwell Time', czyli czas spędzony przez użytkownika na stronie. Jak zrozumieć i skutecznie używać tego parametru do zwiększenia ekspozycji treści? O tym będziemy mówić w dzisiejszym artykule.

Tomasz Kozon

#marketing

Jak działa zasada 60-30-10 i dlaczego jest tak skuteczna w projektowaniu?

4 cze 2025

Zasada 60-30-10 to strategiczne podejście do projektowania, które zyskało dużą popularność. Rozkładanie elementów projektu na trzy kategorie w podanych proporcjach, przynosi zaskakująco estetyczne i harmonijne rezultaty. W artykule omówimy, jak działa ten mechanizm i dlaczego jest kluczem do projektowego sukcesu.

Tomasz Kozon

#web-design

Śledzenie Głębokości Przewijania (Scroll Depth Tracking): czym jest i jakie przynosi korzyści na stronie

3 cze 2025

Efektywne monitorowanie zachowań użytkowników na stronie internetowej to kluczowy element optymalizacji konwersji. Śledzenie głębokości przewijania, zwane także Scroll Depth Tracking, daje możliwość dokładnej analizy, jak głęboko odwiedzający przewijają Twoją stronę. To narzędzie otwiera nowe perspektywy dla właścicieli stron internetowych, umożliwiając precyzyjne mierzenie zaangażowania użytkowników i dostosowywanie treści do ich preferencji.

Tomasz Kozon

#marketing

OpenAI Codex CLI: Programowanie z pomocą sztucznej inteligencji

2 cze 2025

Sztuczna inteligencja coraz śmielej wkracza w świat programowania, oferując nowe sposoby pracy z kodem. Jednym z najbardziej obiecujących narzędzi w tym obszarze jest OpenAI Codex CLI - interfejs wiersza poleceń, który pozwala tworzyć, analizować i modyfikować kod przy pomocy języka naturalnego.

Tomasz Kozon

#ai

Zobacz wszystkie artykuły

Napisz do nas

Zadzwoń

Znajdź nas

Newsletter
social iconsocial iconsocial iconsocial iconsocial icon
logo

Oferta

  • Web Development

  • Mobile Development

  • UI/UX Design

  • E-commerce

  • Outsourcing

  • SEO

Menu

  • O nas

  • Case studies

  • FAQ

  • Blog

  • Kariera

  • Kontakt

© 2025 - Boring Owl - Software House Warszawa

adobexd logo

adobexd

algolia logo

algolia

amazon-s3 logo

amazon-s3

android logo

android

angular logo

angular

api logo

api

apscheduler logo

apscheduler

astro logo

astro

aws-amplify logo

aws-amplify

aws-lambda logo

aws-lambda

axios logo

axios

bash logo

bash

bootstrap logo

bootstrap

bulma logo

bulma

cakephp logo

cakephp

celery logo

celery

chartjs logo

chartjs

clojure logo

clojure

cloudinary logo

cloudinary

cms logo

cms

cobol logo

cobol

contentful logo

contentful

cpython logo

cpython

css3 logo

css3

django logo

django

django-rest logo

django-rest

docker logo

docker

drupal logo

drupal

dynamodb logo

dynamodb

electron logo

electron

expo-io logo

expo-io

express-js logo

express-js

fakerjs logo

fakerjs

fastapi logo

fastapi

fastify logo

fastify

figma logo

figma

firebase logo

firebase

flask logo

flask

flutter logo

flutter

gatsbyjs logo

gatsbyjs

ghost-cms logo

ghost-cms

google-cloud logo

google-cloud

graphcms logo

graphcms

graphql logo

graphql

groovy logo

groovy

gulpjs logo

gulpjs

hasura logo

hasura

headless-cms logo

headless-cms

heroku logo

heroku

html5 logo

html5

httpie logo

httpie

immutablejs logo

immutablejs

ios logo

ios

java logo

java

javascript logo

javascript

jekyll logo

jekyll

jekyll-admin logo

jekyll-admin

jenkins logo

jenkins

jquery logo

jquery

json logo

json

keras logo

keras

keystone5 logo

keystone5

kotlin logo

kotlin

kubernetes logo

kubernetes

laravel logo

laravel

lodash logo

lodash

magento logo

magento

mailchimp logo

mailchimp

material-ui logo

material-ui

matlab logo

matlab

maven logo

maven

miro logo

miro

mockup logo

mockup

momentjs logo

momentjs

mongodb logo

mongodb

mysql logo

mysql

nestjs logo

nestjs

net logo

net

netlify logo

netlify

next-js logo

next-js

nodejs logo

nodejs

npm logo

npm

nuxtjs logo

nuxtjs

oracle logo

oracle

pandas logo

pandas

php logo

php

postgresql logo

postgresql

postman logo

postman

prestashop logo

prestashop

prettier logo

prettier

prisma logo

prisma

prismic logo

prismic

prose logo

prose

pwa logo

pwa

python logo

python

python-scheduler logo

python-scheduler

rabbitmq logo

rabbitmq

react-js logo

react-js

react-native logo

react-native

react-static logo

react-static

redis logo

redis

redux logo

redux

redux-saga logo

redux-saga

redux-thunk logo

redux-thunk

restful logo

restful

ruby-on-rails logo

ruby-on-rails

rust logo

rust

rxjs logo

rxjs

saleor logo

saleor

sanity logo

sanity

scala logo

scala

scikit-learn logo

scikit-learn

scrapy logo

scrapy

scrum logo

scrum

selenium logo

selenium

sentry logo

sentry

shodan logo

shodan

slack logo

slack

sms-api logo

sms-api

socket-io logo

socket-io

solidity logo

solidity

spring logo

spring

sql logo

sql

sql-alchemy logo

sql-alchemy

storyblok logo

storyblok

storybook logo

storybook

strapi logo

strapi

stripe logo

stripe

structured-data logo

structured-data

struts logo

struts

svelte logo

svelte

swagger logo

swagger

swift logo

swift

symfony logo

symfony

tensorflow logo

tensorflow

terraform logo

terraform

threejs logo

threejs

twig logo

twig

typescript logo

typescript

vercel logo

vercel

vue-js logo

vue-js

webpack logo

webpack

websocket logo

websocket

woocommerce logo

woocommerce

wordpress logo

wordpress

yarn logo

yarn

yii logo

yii

zend logo

zend

zeplin logo

zeplin

Zobacz więcej