Zadania cykliczne w Pythonie, czyli scrapowanie internetu raz dziennie

bigdata

5 minut czytania

Tomasz Kozon

14 kwi 2022

python

html5

json

javascript

selenium

heroku

Python jest jednym z najpopularniejszych języków programowania, który jest wykorzystywany do różnorodnych zadań, w tym do automatyzacji procesów. Jednym z przykładów zastosowania Pythonu jest scrapowanie danych z internetu.

Spis treści

Część 1

Część 2

Powiązane oferty pracy

Full-Stack JS Developer (Node + React)

B2B:

8000 - 13000 PLN netto +VAT

Pokaż wszystkie oferty

Powiązane case studies

Baza Cosmetics - Marketplace kosmetyków premium

E-commerce, Web development

Signor Leone - konfigurator garniturów szytych na miarę. Wizualizacja wyglądu garderoby przed wizytą w salonie

Web development, E-commerce, UX/UI

Pokaż wszystkie case study

Po przeczytaniu tego artykułu dowiesz się:

jak scrapować strony internetowe w Pythonie?
jak robić to codziennie o tej samej godzinie?
jak zrobić to z wykorzystaniem rozwiązania opartego na chmurze?

Z jakich rozwiązań skorzystam tym razem?

Python 3.6.2
Redis lub Apscheduler
BeautifulSoup, Selenium
Heroku

Artykuł podzielę na dwie części. Pierwsza dotyczyć będzie Scrapowania stron WWW i skupię się na detalach, lecz pominę tłumaczenie podstawowych funkcji. Druga będzie dotyczyć czegoś bardziej dla mnie interesującego, z czym musiałem się ostatnio zmierzyć, czyli z zadaniami cyklicznymi napisanymi w Pythonie.

Część 1

Dlaczego miałbym scrapować jakąkolwiek stronę internetową?

Nieczęsto się to zdarza w obecnych czasach, ale wyobraźcie sobie sytuację, że strona WWW nie ma zaimplementowanego API, nie jestem w stanie się z nią połączyć z wykorzystaniem zwykłego requests.get, a raczej wynik tej komendy zwróci mi nieustrukturyzowanego długiego stringa, ze wszystkimi znacznikami html, a nie ustrukturyzowanego JSONa. Nie mam również możliwości wygenerowania pliku .csv.

Z pomocą przychodzi nam w tym momencie Beautiful Soup, czyli biblioteka do scrapowania stron WWW w Pythonie. Nie będę dokładnie wyjaśniał zasad korzystania z niej, gdyż tutoriali jest naprawdę dużo.

Całość zamyka się z reguły w 2 krokach:

Krok 1.

Zobaczmy jak wygląda plik HTML interesującej nas strony www, a dokładniej przyjrzyjmy się znacznikom HTML otaczającym zawartość, którą będziemy się starali pobrać. Z reguły będzie to <a>,<li> lub temu podobne.

 import requests
from bs4 import BeautifulSoup 
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify()) 
url = 'http://www.agregat.stronazen.pl/blog2/'
r = requests.get(url) text = r.text

Krok 2.

W tej chwili możemy już swobodnie poruszać się po interesujących nas znacznikach. Beautiful Soup tworzy drzewo hierarchi, po którym poruszamy się tak jakbyśmy zaglądali wgłąb jakiegoś obiektu (<div><a> = div.a ) lub za pomocą funkcji findall. Odsyłam po szczegóły do dokumentacji.

Krok 3.

Pisałem, że całość powinna zamknąć się w dwóch krokach ? Powinna, ale większość nowoczesnych stron WWW nie jest statyczna i kontent , czyli np tabele danych, które nas interesują są generowane za pomocą JavaScript. W praktyce to oznacza, że danych które nas interesują może nie być w pobranym przez nas kodzie HTML

W tym momencie znam dwa rozwiązania wykorzystujące Selenium:

Przeczekać moment ładowania się strony WWW

from selenium import webdriver from bs4 import BeautifulSoup import time

browser=webdriver.Firefox() browser.get('http://webpage.com') time.sleep(15) soup=BeautifulSou

Gdy to nie działa, bo dane które nas interesują są generowane za pomocą JavaScript z pomocą przychodzi przeglądarka PhantomJS, która generuje z dowolnego kodu JS statyczny kod HTML, który jest już prosty do obróbki

driver = webdriver.PhantomJS()

PhantomJS powinien być już jednakże ostatecznością, gdy wszystkie inne rozwiązania zawiodą. Z reguły z większością przypadków i danych generowanych za pomocą JavaScript radziłem sobie za pomocą BeautifulSoup oraz requests.get()

Czy szukasz wykonawcy projektów IT ?

Sprawdź case studies

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Mój problem dotyczył regularnego scrapowania dużego serwisu internetowego. Na podstawie tych danych miałem zbudować statystyki. Aby statystyki były wiarygodne scrapowanie musiało się dokonywać zawsze o tej samej porze. Potrzebowałem właśnie narzędzia do regularnego uruchamiania skryptów w Pythonie. Chciałem skorzystać z prostego rozwiązania, ale jednocześnie przyszłościowego.

Zacząłem więc szukać, jak zawsze, najprostszych rozwiązań i dobrze udokumentowanych. Znajomi polecali Crona, ale nie do końca miałem przekonanie, że będzie to właśnie to czego szukam. Przypadkiem znalazłem harmonogram zadań w Windowsie , który jest w stanie uruchamiać skrypty napisane w Pythonie. Rozwiązanie trywialne i rozwiązujące mój aktualny problem, ale czy to byłoby rozwiązanie przyszłościowe ? Nie sądzę.

Poczytałem o innych zadaniach cyklicznych, tak jak regularne wysyłanie maili, raportów, wykonywanie odłożonych w czasie intensywnych obliczeniowo zadań dla aplikacji WWW – wiedziałem, że zwykły Windowsowy harmonogram zadań, to nie jest to czego szukam.

Z czego finalnie skorzystałem?

Najczęściej pojawiającymi się odpowiedziami było Celery, Apscheduler, Redis, RabbitMQ.

Czym jest Apscheduler?

Jest biblioteką w Pythonie i zdecydowanie najprostszym rozwiązaniem. Pozostałe rozwiązania pomimo, że posiadają funkcje schedulera nie jest to ich głównym zadaniem w aplikacjach by tworzyć cykliczne zadania. Redis służy również jako baza danych, czy też jako messenging broker, a Celery jest jednym z bardziej zaawansowanych narzędzi do wykonywania zadań asynchronicznie , czy też obsługi kolejek z zadaniami.

Dla moich potrzeb w zupełności wystarczyło wykorzystanie blokującego schedulera.

from apscheduler.schedulers.blocking import BlockingScheduler
sched = BlockingScheduler()
@sched.scheduled_job('interval', minutes=1) def extreme_conditions(): print("check for extreme conditions")
sched.start()

Nie byłbym sobą , gdybym chociaż nie liznął tematu Celery.

Jak się okazało Celery do poprawnego działania potrzebuje backendu w postaci messeging brokera. Nie miałem wcześniej doświadczenia z Redisem, a widząc jego częstotliwość w ogłoszeniach o pracę postanowiłem wykorzystać go jako backend. Istniała również możliwość wykorzystania słabo opisanego protokołu SQS od AWS oraz lepiej opisanego RabbitMQ. RabbitMQ byłby również dobrym rozwiązaniem, ale Redis jest również wykorzystywany jako baza danych, więc czemu miałbym w nim nie trzymać moich danych ? Warto przynajmniej spróbować, jeżeli już testuje jego implementację.

from celery import Celery from os import environ
app = Celery('task')
REDIS_URL = environ.get('REDISTOGO_URL','redis://localhost') app.conf.update( BROKER_URL=REDIS_URL, CELERY_TASK_SERIALIZER='json')
@app.on_after_configure.connect def periodic_tasks(sender, **kwargs): sender.add_periodic_task(10.0, test.s("extreme values occured"), name='every 10 seconds')
@app.task def test(arg): print(arg)

Kod podobnie nie różni się zbytnio od tego poprzedniego. Wyjaśnienie należy się głównie określeniu REDISTOGO – jest to po prostu dodatek do platformy Heroku. Polecane również było wykorzystanie CELERY_TASK_SERIALIZER ustawionego na json, ze względu na to, że domyślnie Celery wykorzystuje Pythonowego pickle, który może powodować później problemy – tak mamy sprawdzoną poprawność danych i możemy uniknąć w przyszłości problemów.

Co zrobić by nasz scheduler działał w chmurze?

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

Krok 1 Instalacja Heroku

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Przygotowałem tym razem dwie wersje:

wersja Apscheduler

git clone https://github.com/MateuszKuba/PythonApschedulerHeroku

wersja Celery + Redistogo

git clone https://github.com/MateuszKuba/PythonCeleryPeriodicTask

Wyjaśnienia tym razem może wymagać jedynie plik procfile, który mówi Heroku jaki rodzaj aplikacji będziemy do niego wysyłać. Nie będzie to tym razem aplikacja webowa tylko tzw. clock

Krok 3 Przesłanie rozwiązania do chmury

heroku login git init git push heroku master heroku ps:scale clock=1

Ponownie wykorzystaliśmy bezpłatną wersję zarówno dodatku redistogo jak i samej funkcjonalności clock.

Co dalej?

często sam mam problem oglądając repozytoria na githubie, gdy problem mnie interesujący jest obudowany tysiącem innych funkcjonalności, dlatego sam postawiłem na prostotę i napisałem wszystko z osobna. Jeżeli temat Cię zainteresował to nie pozostaje nic innego jak połączyć wszystkie funkcjonalności. Napisać funkcję scrapującą serwis WWW, zwrócić wyniki do JSONA, ustawić zadanie i jego parametry, a następnie wszystko wyeksportować do chmury
kolejnym etapem mogłoby być ustawienie Redisa również jako repozytorium danych
można by było spróbować wykonywać niektóre zadania asynchronicznie i więcej jak jedno

Nasza oferta

Powiązane artykuły

Akordeon w UI: jak tworzyć rozwijane i zwijane sekcje w aplikacji

29 paź 2025

Akordeony to jeden z najczęściej stosowanych wzorców interfejsu użytkownika, pozwalający na efektywne zarządzanie przestrzenią i prezentowanie informacji w przystępny sposób. Dzięki nim użytkownicy mogą szybko odnaleźć potrzebne treści bez konieczności przewijania długich stron. Odpowiednio zaprojektowane sekcje rozwijane poprawiają nie tylko estetykę aplikacji, ale także jej użyteczność i dostępność.

Tomasz Kozon

#web-design

related-article-image-elementy designu, akordeon

Islands Architecture - jak łączyć statykę z interaktywnością na stronach WWW

25 paź 2025

Nowoczesne strony internetowe coraz częściej muszą łączyć szybkość działania z bogatą interaktywnością. Tradycyjne podejścia, takie jak SPA czy SSR, często nie spełniają wszystkich oczekiwań – albo są zbyt ciężkie, albo zbyt ograniczone. W odpowiedzi na te wyzwania powstała Islands Architecture, czyli koncepcja budowania stron złożonych z „wysp” interaktywności osadzonych w statycznym HTML-u.

Tomasz Kozon

#front-end

Medusa.js – elastyczna alternatywa dla Shopify i innych e-commerce

10 paź 2025

E-commerce rozwija się w błyskawicznym tempie, a firmy coraz częściej poszukują rozwiązań, które dadzą im większą elastyczność niż klasyczne platformy SaaS. Shopify czy WooCommerce świetnie sprawdzają się na starcie, ale szybko okazuje się, że mają swoje ograniczenia – zarówno kosztowe, jak i technologiczne. W odpowiedzi na te wyzwania powstała Medusa.js – nowoczesny framework open-source, który łączy zalety architektury headless z pełną kontrolą nad kodem i danymi. To alternatywa, która daje biznesom możliwość tworzenia skalowalnych, spersonalizowanych sklepów dopasowanych do indywidualnych potrzeb.

Tomasz Kozon

#fullstack

Czym jest Commerce.js i jak może pomóc w e-commerce?

29 wrz 2025

W dynamicznie zmieniającym się świecie internetowego handlu, Commerce.js pojawia się jako potężny sprzymierzeniec w kreowaniu skutecznej strategii e-commerce. Ten wysoko konfigurowalny framework, dający olbrzymie możliwości personalizacji sklepów internetowych, przenosi funkcjonalność e-handlu na zupełnie nowy poziom. W artykule przyjrzymy się bliżej jego możliwościom.

Tomasz Kozon

#fullstack

Capacitor – most między aplikacjami webowymi a natywnymi

26 wrz 2025

W świecie tworzenia aplikacji mobilnych i desktopowych coraz większą rolę odgrywają rozwiązania pozwalające łączyć technologie webowe z natywnymi. Jednym z najciekawszych narzędzi tego typu jest Capacitor. Umożliwia ona budowanie aplikacji w HTML, CSS i JavaScript, które działają jak pełnoprawne aplikacje mobilne i desktopowe, z dostępem do natywnych API. Dzięki temu deweloperzy mogą tworzyć wieloplatformowe rozwiązania szybciej, wydajniej i bez konieczności rezygnowania z ekosystemu webowego.

Tomasz Kozon

#mobile

Fresh - framework webowy dla Deno

10 wrz 2025

Fresh to nowoczesny framework webowy stworzony specjalnie dla środowiska Deno, który łączy prostotę, szybkość i nowoczesne podejście do tworzenia aplikacji internetowych. Dzięki architekturze wyspowej (Islands Architecture) oraz renderowaniu po stronie serwera zapewnia wyjątkową wydajność i minimalne zużycie zasobów. Framework wykorzystuje Preact i TypeScript, oferując deweloperom znany, a jednocześnie lekki ekosystem do pracy.

Tomasz Kozon

#front-end

Azure Databricks: definicja, możliwości i powody, dla których warto go znać

4 wrz 2025

Azure Databricks to innowacyjna usługa analityczna w chmurze, której zadaniem jest umożliwienie przetwarzania dużych zbiorów danych w czasie rzeczywistym. Wykorzystując potencjał technologii Spark, stanowi potężne narzędzie do analizy Big Data. Poznajmy Azure Databricks: jego definicję, możliwości, a także powody, dla których warto zapoznać się z tą technologią.

Tomasz Kozon

#bigdata

Zobacz wszystkie artykuły powiązane z #bigdata

bigdata

Full-Stack JS Developer (Node + React)

Baza Cosmetics - Marketplace kosmetyków premium

Signor Leone - konfigurator garniturów szytych na miarę. Wizualizacja wyglądu garderoby przed wizytą w salonie

Część 1

Krok 1.

Krok 2.

Krok 3.

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Z czego finalnie skorzystałem?

Czym jest Apscheduler?

Co zrobić by nasz scheduler działał w chmurze?

Krok 1 Instalacja Heroku

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Krok 3 Przesłanie rozwiązania do chmury

Nasza oferta

Web development

Mobile development

E-commerce

Projektowanie UX/UI

Outsourcing

SEO

Powiązane artykuły

Akordeon w UI: jak tworzyć rozwijane i zwijane sekcje w aplikacji

Tomasz Kozon

Islands Architecture - jak łączyć statykę z interaktywnością na stronach WWW

Tomasz Kozon

Medusa.js – elastyczna alternatywa dla Shopify i innych e-commerce

Tomasz Kozon

Czym jest Commerce.js i jak może pomóc w e-commerce?

Tomasz Kozon

Capacitor – most między aplikacjami webowymi a natywnymi

Tomasz Kozon

Fresh - framework webowy dla Deno

Tomasz Kozon

Azure Databricks: definicja, możliwości i powody, dla których warto go znać

Tomasz Kozon