IRTUM – Institutional Repository of the Technical University of Moldova

Research of the hybrid Large Language Models architecture for the optimal task delegation

Show simple item record

dc.contributor.advisor GAVRILIȚA, Mihail
dc.contributor.advisor COJOCARU, Svetlana
dc.contributor.author GRAUR, Elena
dc.date.accessioned 2026-02-26T12:20:59Z
dc.date.available 2026-02-26T12:20:59Z
dc.date.issued 2026
dc.identifier.citation GRAUR, Elena. Research of the hybrid Large Language Models architecture for the optimal task delegation. Teză de master. Programul de studiu Ingineria software. Conducător ştiinţific GAVRILIȚA Mihail, lect. univ. Universitatea Tehnică a Moldovei. Chișinău, 2026. en_US
dc.identifier.uri https://repository.utm.md/handle/5014/35490
dc.description Fişierul ataşat conţine: Rezumat, Abstract, Contents, Introduction, Bibliography. en_US
dc.description.abstract Large Language Models have undergone rapid growth and development in recent years, with new models that are better and more performant than earlier versions, emerging continuously and constantly. However, when selecting the most suitable model for a specific task, persistent economic and architectural constraints arise, as no single model performs efficiently across all domains and benchmarks. Trying to leverage multiple large language models simultaneously introduces significant operational challenges, in- cluding increased decision latency and the ”communication tax” from token overhead in multi-agent system coordination. The present paper discusses the mitigation of these challenges by proposing a new, hybrid orchestra- tion architecture aimed at solving the existing failure to achieve optimal cost-accuracy-latency trade-offs in LLM production. The system relies on a non-generative Central Router to dynamically triage user requests using feature-driven ranking, presenting an approach beyond simple similarity to predict the best utility for each architectural path, such as Single-Agent for cost-efficiency or Multi-Agent for complex coordina- tion. Furthermore, it employs quantitative self-triage mechanisms, such as the Internal Confidence Score derived from log probabilities, to ensure the selection of the most reliable model and resource allocation. The practical implementation of a Proof of Concept demonstrated the feasibility of such a solution, per- forming accurate request routing across varied tasks, such as code generation and complex analysis. The research provides a robust baseline and motivation for future work in the field, demonstrating the necessity and utility of this resource-aware approach for sustainable LLM deployment. en_US
dc.description.abstract Modelele Lingvistice Mari au avut parte de o creștere și o dezvoltare rapidă în ultimii ani, cu noi modele care sunt mai bune și mai performante decât versiunile anterioare, apărând în mod continuu și constant. Cu toate acestea, atunci când se selectează modelul cel mai potrivit pentru o anumită sarcină, apar constrângeri economice și arhitecturale persistente, deoarece niciun model unic nu functționeaza eficient în toate domeniile și criteriile de referintă. Încercarea de a antrena mai multe modele lingvistice mari introduce simultan și provocari operationale semnificative, inclusiv latenta sporită a deciziilor și ”taxa de comunicare” din cheltuielile generale ale token-urilor în coordonarea sistemelor multi-agent. Lucrarea de față discută atenuarea provocarilor mentionate prin propunerea unei noi arhitecturi de orchestratie hibridă ce vizează soluționarea eșecului existent de atingere a compromisurilor optime de cost-acuratete-latență în producția modelelor lingvistice mari. Sistemul se bazează pe un Router Central non-generativ pentru a tria dinamic cererile utilizatorilor folosind un clasament bazat pe caracteristici, prezentând o abordare mai complexă decât similitudinea de text pentru prezicerea celei mai bune utilități pentru fiecare cale arhitecturală, cum ar fi Agent-Unic pentru rentabilitate sau Multi-Agent pentru coor-donare complexă. În plus, sistemul propus utilizează mecanisme cantitative de auto-triaj, cum ar fi Scorul de Încredere Internă derivat din probabilitățile de înregistrare, pentru a asigura selectarea celui mai fiabil model și alocarea optimă a resurselor. Implementarea practică a unei dovezi a conceptului a demonstrat fezabilitatea unei astfel de soluții, efectuând o rutare eficientă a solicitărilor în diferite sarcini, cum ar fi generarea de cod și analiza complexă. Cercetarea oferă o bază solidă și o motivație pentru munca viitoare în domeniu, demonstrând necesitatea și utilitatea acestei abordări bazate pe resurse pentru implementarea durabilă a Modelelor Lingvistice Mari. en_US
dc.language.iso en en_US
dc.publisher Universitatea Tehnică a Moldovei en_US
dc.rights Attribution-NonCommercial-NoDerivs 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/us/ *
dc.subject router en_US
dc.subject Single-Agent System en_US
dc.subject Multi-Agent System en_US
dc.subject latency en_US
dc.subject Sistem Agent-Unic en_US
dc.subject Sistem Multi-Agent en_US
dc.subject latența en_US
dc.subject prompt en_US
dc.title Research of the hybrid Large Language Models architecture for the optimal task delegation en_US
dc.title.alternative Cercetarea arhitecturilor hibride ale Modelelor Lingvistice Mari pentru delegarea optimă a sarcinilor en_US
dc.type Thesis en_US


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States

Search DSpace


Browse

My Account