Video lip-sync methods for realistic speech-to-face synchronization: evaluation and enhancement

CERNEI, Ion

Home
→
Facultatea Calculatoare, Informatică şi Microelectronică
→
Teze de master
→
Program de studii - Ingineria software (IS)
→
2026
→
View Item

Video lip-sync methods for realistic speech-to-face synchronization: evaluation and enhancement

CERNEI, Ion

URI: https://repository.utm.md/handle/5014/35485

Date: 2026

Abstract:

The report presents an in-depth examination of modern lip synchronization techniques and proposes an enhanced diffusion based framework for generating realistic, identity preserving, and temporally coherent speech driven facial animation. The project addresses persistent limitations in existing lip sync systems, such as inaccurate synchronization, identity drift, visual artifacts, and limited robustness to real world conditions, by integrating novel mechanisms for personalized orofacial modeling, occlusion aware inference, and efficient spatiotemporal sequence processing. Across its chapters, the thesis reviews theoretical foundations, outlines the research methodology, details the architectural and implementation components of the proposed system, and presents comprehensive experimental evaluations. Objective and subjective assessments confirm substantial improvements in synchronization accuracy, visual realism, and occlusion robustness compared to state of the art baselines. The resulting framework demonstrates strong potential for practical applications in dubbing, digital avatars, virtual communication, and multimodal media generation.

Raportul prezintă o analiză amplă a tehnicilor moderne de sincronizare labială și propune un cadru avansat bazat pe modele de difuzie pentru generarea unor mișcări faciale realiste, coerente temporal și conforme identității persoanei. Proiectul abordează limitările metodelor existente, precum discrepanțe de sincronizare, pierderea identității, apariția artefactelor vizuale și ineficiența în condiții reale, prin introducerea unor mecanisme inovatoare pentru modelarea stilului orofacial, generarea cu detectarea de obstacole și procesare spațio-temporală eficientă. Pe parcursul capitolelor, teza prezintă fundamentele teoretice, metodologia de cercetare, arhitectura și detaliile de implementare ale sistemului propus, precum și o evaluare experimentală riguroasă. Rezultatele, analizate prin metrici obiective și evaluări subiective, confirmă îmbunătățiri semnificative în acuratețea sincronizării, realismul vizual și evitarea ocluziilor, depășind performanța metodelor alternative. Sistemul demonstrat în această lucrare are potențial pentru aplicații practice în dublaj video, avatare digitale, comunicare virtuală și generare de conținut.