logo
  • Proces
  • Case studies
  • Blog
  • O nas
Napisz do nas
  1. Strona główna

  2. /

    Blog

  3. /

    Zadania cykliczne w Pythonie, czyli scrapowanie internetu raz dziennie

Zadania cykliczne w Pythonie, czyli scrapowanie internetu raz dziennie

bigdata

5 minut czytania

Tomasz Kozon

14 kwi 2022

python

html5

json

javascript

selenium

heroku

Python jest jednym z najpopularniejszych języków programowania, który jest wykorzystywany do różnorodnych zadań, w tym do automatyzacji procesów. Jednym z przykładów zastosowania Pythonu jest scrapowanie danych z internetu.

Spis treści

Część 1

Część 2

Zadania cykliczne w Pythonie, praca na komputerze

Powiązane oferty pracy

Full-Stack JS Developer (Node + React)

B2B:

8000 - 13000 PLN netto +VAT

Pokaż wszystkie oferty

Powiązane case studies

Baza Cosmetics - Marketplace kosmetyków premium

E-commerce, Web development

Signor Leone - konfigurator garniturów szytych na miarę. Wizualizacja wyglądu garderoby przed wizytą w salonie

Web development, E-commerce, UX/UI

Pokaż wszystkie case study

Po przeczytaniu tego artykułu dowiesz się:

  1. jak scrapować strony internetowe w Pythonie?
  2. jak robić to codziennie o tej samej godzinie?
  3. jak zrobić to z wykorzystaniem rozwiązania opartego na chmurze?

Z jakich rozwiązań skorzystam tym razem?

  • Python 3.6.2
  • Redis lub Apscheduler
  • BeautifulSoup, Selenium
  • Heroku

Artykuł podzielę na dwie części. Pierwsza dotyczyć będzie Scrapowania stron WWW i skupię się na detalach, lecz pominę tłumaczenie podstawowych funkcji. Druga będzie dotyczyć czegoś bardziej dla mnie interesującego, z czym musiałem się ostatnio zmierzyć, czyli z zadaniami cyklicznymi napisanymi w Pythonie.

Część 1

Dlaczego miałbym scrapować jakąkolwiek stronę internetową?

Nieczęsto się to zdarza w obecnych czasach, ale wyobraźcie sobie sytuację, że strona WWW nie ma zaimplementowanego API, nie jestem w stanie się z nią połączyć z wykorzystaniem zwykłego requests.get, a raczej wynik tej komendy zwróci mi nieustrukturyzowanego długiego stringa, ze wszystkimi znacznikami html, a nie ustrukturyzowanego JSONa. Nie mam również możliwości wygenerowania pliku .csv.

Z pomocą przychodzi nam w tym momencie Beautiful Soup, czyli biblioteka do scrapowania stron WWW w Pythonie. Nie będę dokładnie wyjaśniał zasad korzystania z niej, gdyż tutoriali jest naprawdę dużo.

Całość zamyka się z reguły w 2 krokach:

 

Krok 1.

Zobaczmy jak wygląda plik HTML interesującej nas strony www, a dokładniej przyjrzyjmy się znacznikom HTML otaczającym zawartość, którą będziemy się starali pobrać. Z reguły będzie to <a>,<li> lub temu podobne.

 

 import requests
from bs4 import BeautifulSoup 
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify()) 
url = 'http://www.agregat.stronazen.pl/blog2/'
r = requests.get(url) text = r.text 

 

Krok 2.

W tej chwili możemy już swobodnie poruszać się po interesujących nas znacznikach. Beautiful Soup tworzy drzewo hierarchi, po którym poruszamy się tak jakbyśmy zaglądali wgłąb jakiegoś obiektu (<div><a> = div.a ) lub za pomocą funkcji findall. Odsyłam po szczegóły do dokumentacji.

 

Krok 3.

Pisałem, że całość powinna zamknąć się w dwóch krokach ? Powinna, ale większość nowoczesnych stron WWW nie jest statyczna i kontent , czyli np tabele danych, które nas interesują są generowane za pomocą JavaScript. W praktyce to oznacza, że danych które nas interesują może nie być w pobranym przez nas kodzie HTML

W tym momencie znam dwa rozwiązania wykorzystujące Selenium:

  • Przeczekać moment ładowania się strony WWW

     

from selenium import webdriver from bs4 import BeautifulSoup import time
browser=webdriver.Firefox() browser.get('http://webpage.com') time.sleep(15) soup=BeautifulSou

 

  • Gdy to nie działa, bo dane które nas interesują są generowane za pomocą JavaScript z pomocą przychodzi przeglądarka PhantomJS, która generuje z dowolnego kodu JS statyczny kod HTML, który jest już prosty do obróbki

 

driver = webdriver.PhantomJS()

 

PhantomJS powinien być już jednakże ostatecznością, gdy wszystkie inne rozwiązania zawiodą. Z reguły z większością przypadków i danych generowanych za pomocą JavaScript radziłem sobie za pomocą BeautifulSoup oraz requests.get()

 

Czy szukasz wykonawcy projektów IT ?
logo
Sprawdź case studies

Część 2

Dlaczego miałbym w ogóle wykonywać zadania cykliczne w Pythonie i czym one są?

Mój problem dotyczył regularnego scrapowania dużego serwisu internetowego. Na podstawie tych danych miałem zbudować statystyki. Aby statystyki były wiarygodne scrapowanie musiało się dokonywać zawsze o tej samej porze. Potrzebowałem właśnie narzędzia do regularnego uruchamiania skryptów w Pythonie. Chciałem skorzystać z prostego rozwiązania, ale jednocześnie przyszłościowego.

Zacząłem więc szukać, jak zawsze, najprostszych rozwiązań i dobrze udokumentowanych. Znajomi polecali Crona, ale nie do końca miałem przekonanie, że będzie to właśnie to czego szukam. Przypadkiem znalazłem harmonogram zadań w Windowsie , który jest w stanie uruchamiać skrypty napisane w Pythonie. Rozwiązanie trywialne i rozwiązujące mój aktualny problem, ale czy to byłoby rozwiązanie przyszłościowe ? Nie sądzę.

Poczytałem o innych zadaniach cyklicznych, tak jak regularne wysyłanie maili, raportów, wykonywanie odłożonych w czasie intensywnych obliczeniowo zadań dla aplikacji WWW – wiedziałem, że zwykły Windowsowy harmonogram zadań, to nie jest to czego szukam.

 

Z czego finalnie skorzystałem?

Najczęściej pojawiającymi się odpowiedziami było Celery, Apscheduler, Redis, RabbitMQ.

 

Czym jest Apscheduler?

Jest biblioteką w Pythonie i zdecydowanie najprostszym rozwiązaniem. Pozostałe rozwiązania pomimo, że posiadają funkcje schedulera nie jest to ich głównym zadaniem w aplikacjach by tworzyć cykliczne zadania. Redis służy również jako baza danych, czy też jako messenging broker, a Celery jest jednym z bardziej zaawansowanych narzędzi do wykonywania zadań asynchronicznie , czy też obsługi kolejek z zadaniami.

Dla moich potrzeb w zupełności wystarczyło wykorzystanie blokującego schedulera.

 

from apscheduler.schedulers.blocking import BlockingScheduler
sched = BlockingScheduler()
@sched.scheduled_job('interval', minutes=1) def extreme_conditions(): print("check for extreme conditions")
sched.start()

 

Nie byłbym sobą , gdybym chociaż nie liznął tematu Celery.

Jak się okazało Celery do poprawnego działania potrzebuje backendu w postaci messeging brokera. Nie miałem wcześniej doświadczenia z Redisem, a widząc jego częstotliwość w ogłoszeniach o pracę postanowiłem wykorzystać go jako backend. Istniała również możliwość wykorzystania słabo opisanego protokołu SQS od AWS oraz lepiej opisanego RabbitMQ. RabbitMQ byłby również dobrym rozwiązaniem, ale Redis jest również wykorzystywany jako baza danych, więc czemu miałbym w nim nie trzymać moich danych ? Warto przynajmniej spróbować, jeżeli już testuje jego implementację.

 

from celery import Celery from os import environ
app = Celery('task')
REDIS_URL = environ.get('REDISTOGO_URL','redis://localhost') app.conf.update( BROKER_URL=REDIS_URL, CELERY_TASK_SERIALIZER='json')
@app.on_after_configure.connect def periodic_tasks(sender, **kwargs): sender.add_periodic_task(10.0, test.s("extreme values occured"), name='every 10 seconds')
@app.task def test(arg): print(arg)

 

Kod podobnie nie różni się zbytnio od tego poprzedniego. Wyjaśnienie należy się głównie określeniu REDISTOGO – jest to po prostu dodatek do platformy Heroku. Polecane również było wykorzystanie CELERY_TASK_SERIALIZER ustawionego na json, ze względu na to, że domyślnie Celery wykorzystuje Pythonowego pickle, który może powodować później problemy – tak mamy sprawdzoną poprawność danych i możemy uniknąć w przyszłości problemów.

 

Co zrobić by nasz scheduler działał w chmurze?

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

 

Krok 1 Instalacja Heroku

 

Krok 2 Ściągnięcie repozytorium GitHub z przygotowanym kodem

Chciałem tym razem spróbować czegoś np AWS albo Google Cloud, ale bardzo spodobała mi się funkcjonalność Schedulera na platformie Heroku, która wykorzystuje funkcjonalność pod nazwą One Off Dynos. Nie jest to nic innego jak uruchamianie się usługi i płacenie za nią tylko wtedy, gdy jest potrzebna. Nie znalazłem tak łatwo programowalnej funkcjonalności nigdzie indziej. Jeżeli znasz taką , napisz proszę wiadomość, a na pewno uzupełnię o nią ten artykuł.

Przygotowałem tym razem dwie wersje:

  • wersja Apscheduler

 

git clone https://github.com/MateuszKuba/PythonApschedulerHeroku

 

  • wersja Celery + Redistogo

 

git clone https://github.com/MateuszKuba/PythonCeleryPeriodicTask

 

Wyjaśnienia tym razem może wymagać jedynie plik procfile, który mówi Heroku jaki rodzaj aplikacji będziemy do niego wysyłać. Nie będzie to tym razem aplikacja webowa tylko tzw. clock

 

Krok 3 Przesłanie rozwiązania do chmury

 

heroku login git init git push heroku master heroku ps:scale clock=1

 

Ponownie wykorzystaliśmy bezpłatną wersję zarówno dodatku redistogo jak i samej funkcjonalności clock.

 

Co dalej?

  • często sam mam problem oglądając repozytoria na githubie, gdy problem mnie interesujący jest obudowany tysiącem innych funkcjonalności, dlatego sam postawiłem na prostotę i napisałem wszystko z osobna. Jeżeli temat Cię zainteresował to nie pozostaje nic innego jak połączyć wszystkie funkcjonalności. Napisać funkcję scrapującą serwis WWW, zwrócić wyniki do JSONA, ustawić zadanie i jego parametry, a następnie wszystko wyeksportować do chmury
  • kolejnym etapem mogłoby być ustawienie Redisa również jako repozytorium danych
  • można by było spróbować wykonywać niektóre zadania asynchronicznie i więcej jak jedno

Nasza oferta

Web development

Dowiedz się więcej

Mobile development

Dowiedz się więcej

E-commerce

Dowiedz się więcej

Projektowanie UX/UI

Dowiedz się więcej

Outsourcing

Dowiedz się więcej

SEO

Dowiedz się więcej

Powiązane artykuły

Paradoks Pestycydów: Dlaczego stare testy przestają funkcjonować w testowaniu oprogramowania?

3 sie 2025

Paradoks Pestycydów to pojęcie ze świata testowania oprogramowania, mówiące o tym, że stale wykorzystywanie tych samych testów prowadzi do coraz mniejszej skuteczności wykrywania błędów. Podobnie jak insekty stają się odporne na używane pestycydy, tak oprogramowanie 'przyzwyczaja' się do testów, a ewentualne defekty umykają uwadze.

Tomasz Kozon

#testing

related-article-image-testing, Paradoks Pestycydów

Tester eXperience (TX) – nowy wymiar jakości w testowaniu

21 lip 2025

W świecie, w którym konkurencja na rynku cyfrowym rośnie z dnia na dzień, samo „działanie bez błędów” nie wystarcza, by produkt odniósł sukces. Coraz większe znaczenie ma to, jak użytkownicy faktycznie doświadczają korzystania z aplikacji – czy czują się pewnie, komfortowo i satysfakcjonująco. Właśnie z tej potrzeby narodziła się koncepcja Tester eXperience (TX), która łączy tradycyjne testowanie z perspektywą UX i empatią wobec odbiorcy końcowego. To nowy wymiar jakości, w którym tester przestaje być jedynie strażnikiem kodu, a staje się ambasadorem użytkownika w całym cyklu życia produktu.

Tomasz Kozon

#testing

Czym jest BMS? Podstawy systemów zarządzania budynkami

15 lip 2025

Systemy zarządzania budynkami (BMS) stają się nieodzownym elementem nowoczesnej infrastruktury, umożliwiając inteligentne sterowanie instalacjami technicznymi w obiektach komercyjnych, przemysłowych i mieszkalnych. Dzięki BMS możliwe jest centralne monitorowanie, automatyzacja i optymalizacja działania takich systemów jak ogrzewanie, wentylacja, oświetlenie czy bezpieczeństwo. Rozwiązania te nie tylko zwiększają komfort i bezpieczeństwo użytkowników, ale także pozwalają na znaczną redukcję kosztów operacyjnych i zużycia energii.

Tomasz Kozon

#embedded

Browserling – testowanie stron internetowych w każdej przeglądarce

13 lip 2025

Tworzenie stron internetowych to dopiero połowa sukcesu – równie ważne jest ich poprawne działanie w różnych przeglądarkach i systemach. Różnice w silnikach renderujących sprawiają, że ten sam kod może wyglądać i działać inaczej w Chrome, Safari czy Internet Explorerze. Dlatego testy cross-browser to niezbędny etap w procesie tworzenia nowoczesnych witryn. Jednym z narzędzi, które znacząco ułatwia to zadanie, jest Browserling – prosta, ale bardzo skuteczna platforma do testowania online.

Tomasz Kozon

#testing

Apache MXNet: Dlaczego warto poznać to narzędzie do głębokiego uczenia?

8 lip 2025

Apache MXNet jest dynamicznym, wydajnym i łatwym w użyciu narzędziem do głębokiego uczenia, które umożliwia precyzyjne tworzenie, szkolenie i wyznaczanie modeli uczenia maszynowego. Oferta wszechstronnych funkcji i elastyczności MXNet przekłada się na dostosowanie do różnych scenariuszy. Warto poznać ten potężny tool AI.

Tomasz Kozon

#ai

ButterCMS: Czym jest i dlaczego warto z niego skorzystać?

6 lip 2025

ButterCMS to nowoczesny headless CMS, który pozwala tworzyć i zarządzać treściami w sposób szybki, elastyczny i niezależny od warstwy front-endowej. Dzięki temu programiści mogą budować aplikacje i strony internetowe w dowolnych technologiach, a marketerzy zyskują wygodne narzędzie do publikacji treści. System świetnie sprawdza się zarówno w małych projektach, jak i w dużych serwisach wymagających skalowalności i integracji z innymi rozwiązaniami.

Tomasz Kozon

#fullstack

BitBar: Czym jest i jak on rewolucjonizuje kompleksowe testowanie aplikacji mobilnych w chmurze

12 cze 2025

W świecie dynamicznie rozwijających się aplikacji mobilnych, niezawodność i szybkość testowania stają się kluczowymi elementami sukcesu. BitBar to zaawansowane narzędzie do testowania aplikacji mobilnych w chmurze, które umożliwia przeprowadzanie testów na setkach rzeczywistych urządzeń w sposób zautomatyzowany i skalowalny.

Tomasz Kozon

#testing

Zobacz wszystkie artykuły powiązane z #bigdata

Napisz do nas

Zadzwoń

Znajdź nas

Newsletter
social iconsocial iconsocial iconsocial iconsocial icon
logo

Oferta

  • Web Development

  • Mobile Development

  • UI/UX Design

  • E-commerce

  • Outsourcing

  • SEO

Menu

  • O nas

  • Case studies

  • FAQ

  • Blog

  • Kariera

  • Kontakt

© 2025 - Boring Owl - Software House Warszawa

adobexd logo

adobexd

algolia logo

algolia

amazon-s3 logo

amazon-s3

android logo

android

angular logo

angular

api logo

api

apscheduler logo

apscheduler

argocd logo

argocd

astro logo

astro

aws-amplify logo

aws-amplify

aws-cloudfront logo

aws-cloudfront

aws-lambda logo

aws-lambda

axios logo

axios

azure logo

azure

bash logo

bash

bootstrap logo

bootstrap

bulma logo

bulma

cakephp logo

cakephp

celery logo

celery

chartjs logo

chartjs

clojure logo

clojure

cloudflare logo

cloudflare

cloudinary logo

cloudinary

cms logo

cms

cobol logo

cobol

contentful logo

contentful

coolify logo

coolify

cpython logo

cpython

css3 logo

css3

django logo

django

django-rest logo

django-rest

docker logo

docker

drupal logo

drupal

dynamodb logo

dynamodb

elasticsearch logo

elasticsearch

electron logo

electron

expo-io logo

expo-io

express-js logo

express-js

fakerjs logo

fakerjs

fastapi logo

fastapi

fastify logo

fastify

figma logo

figma

firebase logo

firebase

flask logo

flask

flutter logo

flutter

gatsbyjs logo

gatsbyjs

ghost-cms logo

ghost-cms

google-cloud logo

google-cloud

graphcms logo

graphcms

graphql logo

graphql

groovy logo

groovy

gtm logo

gtm

gulpjs logo

gulpjs

hasura logo

hasura

headless-cms logo

headless-cms

heroku logo

heroku

html5 logo

html5

httpie logo

httpie

i18next logo

i18next

immutablejs logo

immutablejs

imoje logo

imoje

ios logo

ios

java logo

java

javascript logo

javascript

jekyll logo

jekyll

jekyll-admin logo

jekyll-admin

jenkins logo

jenkins

jquery logo

jquery

json logo

json

keras logo

keras

keystone5 logo

keystone5

kotlin logo

kotlin

kubernetes logo

kubernetes

laravel logo

laravel

lodash logo

lodash

magento logo

magento

mailchimp logo

mailchimp

material-ui logo

material-ui

matlab logo

matlab

maven logo

maven

miro logo

miro

mockup logo

mockup

momentjs logo

momentjs

mongodb logo

mongodb

mysql logo

mysql

nestjs logo

nestjs

net logo

net

netlify logo

netlify

next-js logo

next-js

nodejs logo

nodejs

npm logo

npm

nuxtjs logo

nuxtjs

oracle logo

oracle

pandas logo

pandas

php logo

php

postgresql logo

postgresql

postman logo

postman

prestashop logo

prestashop

prettier logo

prettier

prisma logo

prisma

prismic logo

prismic

prose logo

prose

pwa logo

pwa

python logo

python

python-scheduler logo

python-scheduler

rabbitmq logo

rabbitmq

react-flow logo

react-flow

react-hook-form logo

react-hook-form

react-js logo

react-js

react-native logo

react-native

react-query logo

react-query

react-static logo

react-static

redis logo

redis

redux logo

redux

redux-persist logo

redux-persist

redux-saga logo

redux-saga

redux-thunk logo

redux-thunk

relume logo

relume

restful logo

restful

ruby-on-rails logo

ruby-on-rails

rust logo

rust

rxjs logo

rxjs

saleor logo

saleor

sanity logo

sanity

scala logo

scala

scikit-learn logo

scikit-learn

scrapy logo

scrapy

scrum logo

scrum

selenium logo

selenium

sentry logo

sentry

shodan logo

shodan

shopify logo

shopify

slack logo

slack

sms-api logo

sms-api

socket-io logo

socket-io

solidity logo

solidity

spring logo

spring

sql logo

sql

sql-alchemy logo

sql-alchemy

storyblok logo

storyblok

storybook logo

storybook

strapi logo

strapi

stripe logo

stripe

structured-data logo

structured-data

struts logo

struts

styled-components logo

styled-components

supabase logo

supabase

svelte logo

svelte

swagger logo

swagger

swift logo

swift

symfony logo

symfony

tailwind-css logo

tailwind-css

tensorflow logo

tensorflow

terraform logo

terraform

threejs logo

threejs

twig logo

twig

typescript logo

typescript

vercel logo

vercel

vue-js logo

vue-js

webflow logo

webflow

webpack logo

webpack

websocket logo

websocket

woocommerce logo

woocommerce

wordpress logo

wordpress

yarn logo

yarn

yii logo

yii

zend logo

zend

zeplin logo

zeplin

zustand logo

zustand

Zobacz więcej