| dc.contributor.advisor | FIŞTIC, Cristofor | |
| dc.contributor.author | COȘLEȚ, Mihai | |
| dc.date.accessioned | 2025-09-24T12:19:45Z | |
| dc.date.available | 2025-09-24T12:19:45Z | |
| dc.date.issued | 2025 | |
| dc.identifier.citation | COȘLEȚ, Mihai. Catalog pentru stocarea datelor în lac Azure prin aplicarea bibliotecii Dask. Teză de master. Programul de studiu Știința datelor. Conducător ştiinţific FIŞTIC Cristofor (asistent univ.). Universitatea Tehnică a Moldovei. Chișinău, 2025. | en_US |
| dc.identifier.uri | https://repository.utm.md/handle/5014/33297 | |
| dc.description | Fişierul ataşat conţine: Adnotare, Annotation, Cuprins, Introducere, Bibliografie. | en_US |
| dc.description.abstract | În ultimii ani, creșterea exponențială a volumului de date a forțat organizațiile să adopte soluții din ce în ce mai avansate pentru gestionarea eficientă și sigură a acestora. În această cercetare, am implementat un prototip de catalog de date pe Azure Data Lake Storage, folosind Dask pentru calcul distribuit și Apache Airflow pentru orchestrarea proceselor. Combinarea în sistemul elaborat a unei scanări inițiale a întregime de date stocate cu un mecanism de actualizare incrementală, astfel încât numai noile modificări să fie indexate automat, reduce timpul și costurile de calcul. Integrarea cu Azure Event Hubs asigură monitorizarea în timp real a modificărilor din cadrul lacului de date. Airflow coordonează operațiunile de scanare, transformare și export al metadatelor fără intervenție manuală. O serie de teste cantitative și calitative au dus la concluzia că soluția reduce semnificativ timpul de indexare, ușurează sarcina de calcul și îmbunătățește transparența în guvernanța datelor. Rezultatele oferă perspective concrete pentru adoptarea pe scară mai largă a cadrelor distribuite și a orchestratorilor moderni în mediile cloud și deschid calea pentru evoluțiile viitoare în catalogarea automată a datelor mari. Lucrarea de teza are următoare structură: Introducerea; Capitolul 1 “Contextul și Relevanța Temei” în care sunt reprezentate probleme și scopuri, precum și metodologia cercetării și elaborării efectuate; Capitolul 2 “Analiza Domeniului și tehnologiilor” care ne întroduce în fundamentele teoretice și noțiuni ale guvernării a datelor și în tehnologii distribuite utile pentru acest aspect; Capitolul 3 “Proiectarea Și Implementarea Data Catalogului” care descrie arhitectura și funcționarea soluției elaborate; Capitolul 4 “Analiză și Validarea Soluției” care ilustrează testarea și monitorizarea concepute pentru a se asigura că sistemul îndeplinește pe deplin cerințele funcționale și de performanță. | en_US |
| dc.description.abstract | In recent years, the exponential growth in the volume of data has forced organizations to adopt increasingly advanced solutions to manage it efficiently and securely. In this research, I implemented a prototype data catalog on Azure Data Lake Storage, employing Dask for distributed computing and Apache Airflow for process orchestration. Combining in the elaborated system an initial scan of the entire stored data asset with an incremental update mechanism so that only new changes are automatically indexed, reduces computational time and cost. Integration with Azure Event Hubs ensures real-time monitoring of changes within the data lake. Airflow coordinates metadata scanning, transformation, and export operations without requiring manual intervention. A series of quantitative and qualitative tests results in the conclusion that the solution significantly decreases indexing time, lightens computational load, and improves transparency in data governance. The results provide concrete insights for the wider adoption of distributed frameworks and modern orchestrators in cloud environments and pave the way for future developments in automated cataloging of big data. The thesis has the following structure: Introduction; Chapter 1 "Context and Relevance of the Topic" which presents the problems and goals, as well as the methodology of the research and elaboration carried out; Chapter 2 "Domain and Technology Analysis" which introduces to the theoretical foundations and concepts of data governance and distributed technologies useful for this aspect; Chapter 3 "Data Catalog Design and Implementation" which describes the architecture and operation of the elaborated solution; Chapter 4 "Solution Analysis and Validation" which illustrates the profound testing and monitoring designe to ensure that the data catalog system fully meets all functional and performance requirements. | en_US |
| dc.language.iso | ro | en_US |
| dc.publisher | Universitatea Tehnică a Moldovei | en_US |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
| dc.subject | open-source | en_US |
| dc.subject | cloud | en_US |
| dc.subject | procesare distribuită | en_US |
| dc.subject | Apache Airflow | en_US |
| dc.subject | scanare incrementală | en_US |
| dc.subject | Delta update | en_US |
| dc.title | Catalog pentru stocarea datelor în lac Azure prin aplicarea bibliotecii Dask | en_US |
| dc.title.alternative | Catalog for data storage in Azure lake by applying Dask library | en_US |
| dc.type | Thesis | en_US |
The following license files are associated with this item: