IRTUM – Institutional Repository of the Technical University of Moldova

Catalog pentru stocarea datelor în lac Azure prin aplicarea bibliotecii Dask

Show simple item record

dc.contributor.advisor FIŞTIC, Cristofor
dc.contributor.author COȘLEȚ, Mihai
dc.date.accessioned 2025-09-24T12:19:45Z
dc.date.available 2025-09-24T12:19:45Z
dc.date.issued 2025
dc.identifier.citation COȘLEȚ, Mihai. Catalog pentru stocarea datelor în lac Azure prin aplicarea bibliotecii Dask. Teză de master. Programul de studiu Știința datelor. Conducător ştiinţific FIŞTIC Cristofor (asistent univ.). Universitatea Tehnică a Moldovei. Chișinău, 2025. en_US
dc.identifier.uri https://repository.utm.md/handle/5014/33297
dc.description Fişierul ataşat conţine: Adnotare, Annotation, Cuprins, Introducere, Bibliografie. en_US
dc.description.abstract În ultimii ani, creșterea exponențială a volumului de date a forțat organizațiile să adopte soluții din ce în ce mai avansate pentru gestionarea eficientă și sigură a acestora. În această cercetare, am implementat un prototip de catalog de date pe Azure Data Lake Storage, folosind Dask pentru calcul distribuit și Apache Airflow pentru orchestrarea proceselor. Combinarea în sistemul elaborat a unei scanări inițiale a întregime de date stocate cu un mecanism de actualizare incrementală, astfel încât numai noile modificări să fie indexate automat, reduce timpul și costurile de calcul. Integrarea cu Azure Event Hubs asigură monitorizarea în timp real a modificărilor din cadrul lacului de date. Airflow coordonează operațiunile de scanare, transformare și export al metadatelor fără intervenție manuală. O serie de teste cantitative și calitative au dus la concluzia că soluția reduce semnificativ timpul de indexare, ușurează sarcina de calcul și îmbunătățește transparența în guvernanța datelor. Rezultatele oferă perspective concrete pentru adoptarea pe scară mai largă a cadrelor distribuite și a orchestratorilor moderni în mediile cloud și deschid calea pentru evoluțiile viitoare în catalogarea automată a datelor mari. Lucrarea de teza are următoare structură: Introducerea; Capitolul 1 “Contextul și Relevanța Temei” în care sunt reprezentate probleme și scopuri, precum și metodologia cercetării și elaborării efectuate; Capitolul 2 “Analiza Domeniului și tehnologiilor” care ne întroduce în fundamentele teoretice și noțiuni ale guvernării a datelor și în tehnologii distribuite utile pentru acest aspect; Capitolul 3 “Proiectarea Și Implementarea Data Catalogului” care descrie arhitectura și funcționarea soluției elaborate; Capitolul 4 “Analiză și Validarea Soluției” care ilustrează testarea și monitorizarea concepute pentru a se asigura că sistemul îndeplinește pe deplin cerințele funcționale și de performanță. en_US
dc.description.abstract In recent years, the exponential growth in the volume of data has forced organizations to adopt increasingly advanced solutions to manage it efficiently and securely. In this research, I implemented a prototype data catalog on Azure Data Lake Storage, employing Dask for distributed computing and Apache Airflow for process orchestration. Combining in the elaborated system an initial scan of the entire stored data asset with an incremental update mechanism so that only new changes are automatically indexed, reduces computational time and cost. Integration with Azure Event Hubs ensures real-time monitoring of changes within the data lake. Airflow coordinates metadata scanning, transformation, and export operations without requiring manual intervention. A series of quantitative and qualitative tests results in the conclusion that the solution significantly decreases indexing time, lightens computational load, and improves transparency in data governance. The results provide concrete insights for the wider adoption of distributed frameworks and modern orchestrators in cloud environments and pave the way for future developments in automated cataloging of big data. The thesis has the following structure: Introduction; Chapter 1 "Context and Relevance of the Topic" which presents the problems and goals, as well as the methodology of the research and elaboration carried out; Chapter 2 "Domain and Technology Analysis" which introduces to the theoretical foundations and concepts of data governance and distributed technologies useful for this aspect; Chapter 3 "Data Catalog Design and Implementation" which describes the architecture and operation of the elaborated solution; Chapter 4 "Solution Analysis and Validation" which illustrates the profound testing and monitoring designe to ensure that the data catalog system fully meets all functional and performance requirements. en_US
dc.language.iso ro en_US
dc.publisher Universitatea Tehnică a Moldovei en_US
dc.rights Attribution-NonCommercial-NoDerivs 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/us/ *
dc.subject open-source en_US
dc.subject cloud en_US
dc.subject procesare distribuită en_US
dc.subject Apache Airflow en_US
dc.subject scanare incrementală en_US
dc.subject Delta update en_US
dc.title Catalog pentru stocarea datelor în lac Azure prin aplicarea bibliotecii Dask en_US
dc.title.alternative Catalog for data storage in Azure lake by applying Dask library en_US
dc.type Thesis en_US


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States

Search DSpace


Browse

My Account