Migracja z AWS do Google Cloud.
Migracja Hurtowni Danych z AWS do BigQuery.
O projekcie
01.
realizacja
2023
02.
zakres
migracja hurtowni
03.
rozwiązanie
Google Cloud
04.
wynik projektu
Nasz klient
Aby chronić prywatność naszych klientów, nie zawsze możemy udostępniać szczegóły realizowanych projektów i świadczonych usług. Czasami dzielimy się anonimowymi historiami z naszych projektów, aby pokazać, co jest możliwe w dzisiejszym świecie danych i sztucznej inteligencji.
Nasz klient chciał zmienić używane rozwiązanie hurtowni danych i przenieść swoje dane z AWS do Google Cloud - BigQuery. W praktyce musieli zbudować nową hurtownię danych i przenieść istniejące dane do Google Cloud, ale chcieli zrobić to bez konieczności integrowania danych z oryginalnych źródeł od podstaw i powielania procesu, który został już wykonany w AWS.
Aby zbudować nową hurtownię danych dla naszego klienta i przenieść istniejące dane firmy z AWS, wykorzystaliśmy szereg rozwiązań opartych na Google Cloud. Hurtownia danych została zbudowana w Google BigQuery, a do bezproblemowego transferu danych wykorzystaliśmy Google Transfer Service oraz Cloud Composer z Apache Airflow 2.
Nasze podejście
W AWS dane z tabel, które miały zostać przeniesione do BigQuery, były przechowywane i archiwizowane w bucketcie S3. Korzystając z Google Transfer Service, mogliśmy zsynchronizować bucket AWS z bucketem Google Cloud. Zsynchronizowane pliki zostały załadowane do BigQuery bezpośrednio z plików źródłowych przy użyciu tabel zewnętrznych BigQuery. Proces ładowania danych do BigQuery był zarządzany za pomocą Apache Airflow. Przez krótki czas obie hurtownie działały jednocześnie, aby upewnić się, że wszystkie operacje przebiegają bezproblemowo, podczas gdy hurtownia BigQuery była testowana z wykorzystaniem rzeczywistych danych przed ostateczną migracją i była już przygotowana do automatycznego zaimplementowania wszystkich danych przechowywanych w AWS w momencie migracji.
Testy i oszczędności
Dzięki zautomatyzowanemu procesowi, który można było łatwo powtórzyć, testowa migracja nie generowała dodatkowych kosztów i zawsze dostępna była kopia zapasowa. Dane źródłowe nie musiały być agregowane od podstaw, co pozwoliło na znaczne oszczędności finansowe i operacyjne.
Efekty
Projekt zapewnił naszemu klientowi nową hurtownię danych w Google Cloud, która zawierała wszystkie zagregowane dane z poprzednio używanego rozwiązania, wprowadzone do BigQuery w sposób niezawodny, bezpieczny i zautomatyzowany. Dzięki temu, że dane źródłowe nie musiały być integrowane od podstaw, osiągnięto znaczne oszczędności finansowe i operacyjne. Zbudowane rozwiązanie pozwoliło na przetestowanie hurtowni na rzeczywistych danych, co pomogło zminimalizować ryzyko awarii i błędów podczas ostatecznej migracji. Dzięki zautomatyzowanemu procesowi, który można było łatwo powtórzyć, testowa migracja nie generowała dodatkowych kosztów, a zawsze dostępna była kopia zapasowa.