IRTUM – Institutional Repository of the Technical University of Moldova

Semantic non-compositional exploration of Bessarabian idioms by LLMs

Show simple item record

dc.contributor.author TITCHIEV, Inga
dc.contributor.author CAFTANATOV, Olesea
dc.contributor.author DIMITRIU, Crinu
dc.date.accessioned 2026-04-30T17:18:39Z
dc.date.available 2026-04-30T17:18:39Z
dc.date.issued 2025
dc.identifier.citation TITCHIEV, Inga; Olesea CAFTANATOV and Crinu DIMITRIU. Semantic non-compositional exploration of Bessarabian idioms by LLMs. Revistă ştiinţifică. Acta et commentationes: Ştiinţe Exacte şi ale Naturii. 2025, vol. 20, nr. 2, pp. 116-127. ISSN 2537-6284, eISSN 2587-3644. en_US
dc.identifier.issn 2537-6284
dc.identifier.issn 2587-3644
dc.identifier.uri https://doi.org/10.36120/2587-3644.v20i2.116-127
dc.identifier.uri https://repository.utm.md/handle/5014/36050
dc.description.abstract The study explores the potential of LLMs in interpreting and translating Bessarabian idioms. The central problem addressed is the semantic non-compositionality of idiomatic expressions, which poses a significant challenge for Natural Language Processing since their figurative meaning cannot be derived from literal components. As part of the CI ARiA project, 1000 proverbs were digitized, using a corpus of 400 of them to evaluate the performance of 10 AI models (such as ChatGPT, Gemini, Grok). The methodology is multi-algorithmic, combining textual distance metrics (Levenshtein, Jaccard) with semantic similarity analysis via Sentence Transformers. The results indicate that while models demonstrate a solid capacity to grasp metaphorical meanings, significant differences exist regarding consistency and explanatory style. en_US
dc.description.abstract Rezumat. Lucrarea explorează potențialul LLM-urilor în interpretarea și traducerea idiomurilor basarabene. Problema centrală abordată este non-compoziționalitatea semantică a expresiilor idiomatice, care reprezintă o provocare majoră pentru procesarea limbajului natural deoarece sensul lor figurat nu poate fi dedus din componentele literale. În cadrul proiectului CI ARiA, au fost digitalizate 1000 de proverbe, utilizând un corpus de 400 dintre ele pentru a evalua performanța a 10 modele AI (precum ChatGPT, Gemini, Grok). Metodologia utilizată este multi-algoritmică, combinând metrici de distanță textuală (Levenshtein, Jaccard) cu analiza similitudinii semantice prin Sentence Transformers. Rezultatele indică faptul că, deși modelele demonstrează o capacitate solidă de a înțelege sensurile metaforice, există diferențe semnificative în ceea ce privește consistența și stilul explicativ. en_US
dc.language.iso en en_US
dc.publisher Universitatea Pedagogică de Stat Ion Creangă en_US
dc.rights Attribution-NonCommercial-NoDerivs 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/us/ *
dc.subject idioms en_US
dc.subject semantic non-compositionality en_US
dc.subject idiomuri en_US
dc.subject non-compoziţionalitate semantică en_US
dc.title Semantic non-compositional exploration of Bessarabian idioms by LLMs en_US
dc.title.alternative Explorarea non-compoziţională semantică a idiomurilor basarabene de către LLM-uri en_US
dc.type Article en_US


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States

Search DSpace


Browse

My Account