Oparty na zdarzeniach framework ETL dla ADF i Snowflake

mar 7, 2024

Tablica ze znacznikami czasu

Wprowadzenie

W obliczu dynamicznie zmieniającego się świata finansów, fundusz inwestycyjny o włosko-holenderskich korzeniach, posiadający oddział w Irlandii, stanął przed wyzwaniem modernizacji swoich przestarzałych systemów przetwarzania danych. Klient, wykorzystujący dotychczasowe rozwiązania oparte na SSIS (SQL Server Integration Services), zdecydował się na przejście na nowoczesną technologię w celu poprawy efektywności i elastyczności operacyjnej. Głównym celem była integracja oraz przetwarzanie danych pochodzących z różnorodnych źródeł, w tym danych giełdowych, w celu utworzenia nowego systemu raportowania. Wybór padł na platformę Snowflake, cenioną za jej zdolności do zarządzania zbiorami podobnych plików i elastyczność w obsłudze danych.

Problem

Kluczowym wyzwaniem było przetworzenie i integracja danych z różnorodnych formatów plików, w tym plików Excel i archiwów ZIP, bez konieczności tworzenia skomplikowanych transformacji danych dla każdego nowego źródła. Pierwotny plan zakładał zatrudnienie dodatkowych deweloperów do przeprojektowania systemu, jednakże propozycja automatyzacji procesu ładowania danych wydawała się bardziej efektywnym i oszczędzającym koszty rozwiązaniem.

Rozwiązanie

Zaproponowane rozwiązanie polegało na zbudowaniu harmonogramu ładowania danych przy ograniczonej przepustowości, z wykorzystaniem architektury event-driven opartej o Azure Event Hub. Pozwoliło to na natychmiastowe ładowanie dostępnych danych bez konieczności oczekiwania na pojawienie się wszystkich plików, znacząco redukując czas oczekiwania na zasoby i umożliwiając elastyczne zarządzanie kolejnością ładowania danych. System został zaprojektowany w taki sposób, aby był w stanie generować zdarzenia na podstawie pojawiających się plików, co z kolei uruchamiało kolejne etapy przetwarzania danych. Zastąpienie sztywnego harmonogramu ładowania przez system zdarzeń znacząco zwiększyło efektywność i skalowalność procesu.

Do realizacji projektu wykorzystano narzędzia takie jak Azure SQL Database, Azure Data Factory, oraz Azure Event Hub. Użycie Azure Data Factory umożliwiło ujednolicenie komunikacji i mapowania plików, co uprościło zarządzanie procesem ładowania danych. Interesującym aspektem projektu była rezygnacja z wykorzystania Informatica, co pozwoliło klientowi na oszczędności, pokazując, że wybrane narzędzia Azure w pełni zaspokoiły potrzeby projektu.

Wnioski

Implementacja nowego systemu przetwarzania danych przyniosła funduszowi szereg korzyści, w tym większą bezawaryjność, lepszą kontrolę pików obciążenia oraz oszczędności czasu i pieniędzy dzięki automatyzacji procesów. Jednym z kluczowych wniosków jest fakt, że system zbudowany na architekturze event-driven pozwala na szybką reakcję na ewentualne błędy, nie blokując całego systemu, co zwiększa jego odporność i efektywność. Dzięki centralizacji definicji ładowania plików, każda poprawka lub modyfikacja jest znacznie prostsza i szybsza, co przekłada się na zwiększoną elastyczność i skalowalność systemu.

Projekt ten stanowi przykład efektywnej transformacji systemów przetwarzania danych, demonstrując, jak zaawansowane technologie i podejście oparte na automatyzacji mogą przynieść znaczące korzyści operacyjne i finansowe w sektorze finansowym.

Check out our recent posts:

Ewolucja Systemów Wspomagania Decyzji

Systemy Wspomagania Decyzji (DSS) przeszły sześć dekad ewolucji — od pierwszych narzędzi interaktywnych i arkuszy kalkulacyjnych po inteligentne platformy oparte na sztucznej inteligencji i agentach autonomicznych. Artykuł pokazuje tę drogę oraz przyszłość DSS: od chmury i big data po komputery kwantowe i etyczne projektowanie.

Optymalizacja Logistyki Dzięki Analityce Biznesowej

Business Intelligence w logistyce zapewnia wgląd w czasie rzeczywistym, obniża koszty i wspiera podejmowanie mądrzejszych decyzji w obszarze magazynu, transportu, finansów i obsługi klienta. W tym artykule pokazujemy, jak zintegrowane platformy danych zmieniają efektywność logistyki, usprawniają łańcuch dostaw i dają firmom jasność potrzebną do działania, zanim problemy się rozwiną.

Podejście Data-Driven do Platform BI w Telekomunikacji na Azure: Co Nam Pokazały Liczby

Telekomunikacja opiera się na faktach. Ruch w sieci, poziomy SLA czy koszty – wszystko to widać w danych dużo wcześniej, niż trafi na slajdy w prezentacji. Dlatego podejście oparte na danych polega na tym, by traktować wydajność, niezawodność i koszty jako coś mierzalnego i pozwolić, by to właśnie te liczby kierowały architekturą systemu.
W tym artykule dzielimy się naszym doświadczeniem z projektów w branży telekomunikacyjnej w oparciu o Microsoft Azure. Pokazujemy, jak konkretne pomiary pomogły podejmować lepsze decyzje projektowe i dlaczego w chmurze dowody zawsze wygrywają z założeniami.