Analysis and implementation of stylometric features for intrinsic plagiarism detection systems

dc.contributor.advisor GAVRILIȚA, Mihail
dc.contributor.advisor COJOCARU, Svetlana
dc.contributor.author FURDUI, Alexandru
dc.date.accessioned 2025-01-29T12:40:03Z
dc.date.available 2025-01-29T12:40:03Z
dc.date.issued 2025
dc.identifier.citation FURDUI, Alexandru. Analysis and implementation of stylometric features for intrinsic plagiarism detection systems. Teză de master. Programul de studiu Ingineria software. Conducător ştiinţific GAVRILITA Mihail. Universitatea Tehnică a Moldovei. Chișinău, 2025. en_US
dc.identifier.uri http://repository.utm.md/handle/5014/29203
dc.description Fişierul ataşat conţine: Rezumat, Abstract, Contents, Introduction, References. en_US
dc.description.abstract This thesis investigates the analysis and implementation of stylometric features for intrinsic plagiarism detection systems, addressing the increasing demand for effective methods to detect unoriginal content in written works. Intrinsic plagiarism detection operates by examining the internal stylistic characteristics of a document, identifying potential plagiarism based on changes in the author’s writing style without requiring comparison to external sources. The first chapter focuses on presenting the background research and motivation for this study. It discusses the relevance of intrinsic plagiarism detection in today’s digital world, where a vast amount of information is easily accessible. A thorough examination of the current landscape in plagiarism detection technologies is provided, along with the limitations and challenges faced by traditional, external comparison methods. The second chapter delves into related works, offering an in-depth review of previous studies in the fields of stylometry and plagiarism detection. It explores the various stylometric features that are essential for analyzing text, including word frequency, sentence length, and syntactic patterns, and how these are employed to detect stylistic shifts indicative of plagiarism. In the first half of the third chapter, the technical design and implementation of the system are discussed. This section explains the feature extraction methods used, the algorithms for stylometric analysis, and the architecture of the proposed system. Special attention is given to the software tools and libraries used to build a reliable and scalable system. The second half of the implementation chapter provides an evaluation of the system’s performance. The experiments conducted are outlined, showcasing how the system detects stylistic anomalies in various documents. The results are analyzed based on performance metrics like precision, recall, and accuracy, highlighting the effectiveness and potential limitations of the system in different scenarios. The conclusion presents a summary of the findings and their implications for plagiarism detection in academic and professional contexts. Future directions for improving the system, such as incorporating multilingual capabilities and enhancing accuracy, are also discussed. en_US
dc.description.abstract Această lucrare investighează analiza și implementarea caracteristicilor stilometrice pentru sistemele de detectare a plagiatului intrinsec, răspunzând cererii tot mai mari de metode eficiente pentru detectarea conținutului neoriginal în lucrările scrise. Detectarea plagiatului intrinsec funcționează prin examinarea caracteristicilor stilistice interne ale unui document, identificând potențialul plagiat pe baza schimbărilor în stilul de scriere al autorului, fără a fi necesară compararea cu surse externe. Primul capitol se concentrează pe prezentarea cercetării de fond și a motivației pentru acest studiu. Se discută relevanța detectării plagiatului intrinsec în lumea digitală de astăzi, în care o cantitate vastă de informații este ușor accesibilă. Este oferită o examinare detaliată a peisajului actual al tehnologiilor de detectare a plagiatului, împreună cu limitările și provocările cu care se confruntă metodele tradiționale, bazate pe comparații externe. Capitolul al doilea explorează lucrările conexe, oferind o revizuire detaliată a studiilor anterioare în domeniile stilometriei și detectării plagiatului. Acesta analizează diversele caracteristici stilometrice esențiale pentru analiza textului, inclusiv frecvența cuvintelor, lungimea propozițiilor și tiparele sintactice, și modul în care acestea sunt utilizate pentru a detecta schimbările stilistice indicatoare de plagiat. În prima jumatate din al treilea capitol, sunt discutate aspectele tehnice ale designului și implementării sistemului. Această secțiune explică metodele de extragere a caracteristicilor utilizate, algoritmii pentru analiza stilo metrică și arhitectura sistemului propus. O atenție deosebită este acordată instrumentelor software și bibliotecilor folosite pentru a construi un sistem fiabil și scalabil. A doua jumatate a capitolului trei oferă o evaluare a performanței sistemului. Experimentele efectuate sunt detaliate, demonstrând modul în care sistemul detectează anomaliile stilistice în diverse documente. Rezultatele sunt analizate pe baza unor metrici de performanță precum precizia, revocarea și acuratețea, evidențiind eficiența și posibilele limitări ale sistemului în diferite scenarii. Concluzia prezintă un rezumat al constatărilor și implicațiilor acestora pentru detectarea plagiatului în context academic și profesional. Sunt discutate direcții viitoare pentru îmbunătățirea sistemului, cum ar fi integrarea capacităților multilingve și creșterea preciziei. en_US
dc.language.iso en en_US
dc.publisher Universitatea Tehnică a Moldovei en_US
dc.rights Attribution-NonCommercial-NoDerivs 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/us/ *
dc.subject plagiarism detection systems en_US
dc.subject stylometric features en_US
dc.subject author’s writing style en_US
dc.title Analysis and implementation of stylometric features for intrinsic plagiarism detection systems en_US
dc.type Thesis en_US

