Research of the hybrid Large Language Models architecture for the optimal task delegation

GRAUR, Elena

Home
→
Facultatea Calculatoare, Informatică şi Microelectronică
→
Teze de master
→
Program de studii - Ingineria software (IS)
→
2026
→
View Item

dc.contributor.advisor	GAVRILIȚA, Mihail
dc.contributor.advisor	COJOCARU, Svetlana
dc.contributor.author	GRAUR, Elena
dc.date.accessioned	2026-02-26T12:20:59Z
dc.date.available	2026-02-26T12:20:59Z
dc.date.issued	2026
dc.identifier.citation	GRAUR, Elena. Research of the hybrid Large Language Models architecture for the optimal task delegation. Teză de master. Programul de studiu Ingineria software. Conducător ştiinţific GAVRILIȚA Mihail, lect. univ. Universitatea Tehnică a Moldovei. Chișinău, 2026.	en_US
dc.identifier.uri	https://repository.utm.md/handle/5014/35490
dc.description	Fişierul ataşat conţine: Rezumat, Abstract, Contents, Introduction, Bibliography.	en_US
dc.description.abstract	Large Language Models have undergone rapid growth and development in recent years, with new models that are better and more performant than earlier versions, emerging continuously and constantly. However, when selecting the most suitable model for a specific task, persistent economic and architectural constraints arise, as no single model performs efficiently across all domains and benchmarks. Trying to leverage multiple large language models simultaneously introduces significant operational challenges, in- cluding increased decision latency and the ”communication tax” from token overhead in multi-agent system coordination. The present paper discusses the mitigation of these challenges by proposing a new, hybrid orchestra- tion architecture aimed at solving the existing failure to achieve optimal cost-accuracy-latency trade-offs in LLM production. The system relies on a non-generative Central Router to dynamically triage user requests using feature-driven ranking, presenting an approach beyond simple similarity to predict the best utility for each architectural path, such as Single-Agent for cost-efficiency or Multi-Agent for complex coordina- tion. Furthermore, it employs quantitative self-triage mechanisms, such as the Internal Confidence Score derived from log probabilities, to ensure the selection of the most reliable model and resource allocation. The practical implementation of a Proof of Concept demonstrated the feasibility of such a solution, per- forming accurate request routing across varied tasks, such as code generation and complex analysis. The research provides a robust baseline and motivation for future work in the field, demonstrating the necessity and utility of this resource-aware approach for sustainable LLM deployment.	en_US
dc.description.abstract	Modelele Lingvistice Mari au avut parte de o creștere și o dezvoltare rapidă în ultimii ani, cu noi modele care sunt mai bune și mai performante decât versiunile anterioare, apărând în mod continuu și constant. Cu toate acestea, atunci când se selectează modelul cel mai potrivit pentru o anumită sarcină, apar constrângeri economice și arhitecturale persistente, deoarece niciun model unic nu functționeaza eficient în toate domeniile și criteriile de referintă. Încercarea de a antrena mai multe modele lingvistice mari introduce simultan și provocari operationale semnificative, inclusiv latenta sporită a deciziilor și ”taxa de comunicare” din cheltuielile generale ale token-urilor în coordonarea sistemelor multi-agent. Lucrarea de față discută atenuarea provocarilor mentionate prin propunerea unei noi arhitecturi de orchestratie hibridă ce vizează soluționarea eșecului existent de atingere a compromisurilor optime de cost-acuratete-latență în producția modelelor lingvistice mari. Sistemul se bazează pe un Router Central non-generativ pentru a tria dinamic cererile utilizatorilor folosind un clasament bazat pe caracteristici, prezentând o abordare mai complexă decât similitudinea de text pentru prezicerea celei mai bune utilități pentru fiecare cale arhitecturală, cum ar fi Agent-Unic pentru rentabilitate sau Multi-Agent pentru coor-donare complexă. În plus, sistemul propus utilizează mecanisme cantitative de auto-triaj, cum ar fi Scorul de Încredere Internă derivat din probabilitățile de înregistrare, pentru a asigura selectarea celui mai fiabil model și alocarea optimă a resurselor. Implementarea practică a unei dovezi a conceptului a demonstrat fezabilitatea unei astfel de soluții, efectuând o rutare eficientă a solicitărilor în diferite sarcini, cum ar fi generarea de cod și analiza complexă. Cercetarea oferă o bază solidă și o motivație pentru munca viitoare în domeniu, demonstrând necesitatea și utilitatea acestei abordări bazate pe resurse pentru implementarea durabilă a Modelelor Lingvistice Mari.	en_US
dc.language.iso	en	en_US
dc.publisher	Universitatea Tehnică a Moldovei	en_US
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.subject	router	en_US
dc.subject	Single-Agent System	en_US
dc.subject	Multi-Agent System	en_US
dc.subject	latency	en_US
dc.subject	Sistem Agent-Unic	en_US
dc.subject	Sistem Multi-Agent	en_US
dc.subject	latența	en_US
dc.subject	prompt	en_US
dc.title	Research of the hybrid Large Language Models architecture for the optimal task delegation	en_US
dc.title.alternative	Cercetarea arhitecturilor hibride ale Modelelor Lingvistice Mari pentru delegarea optimă a sarcinilor	en_US
dc.type	Thesis	en_US