Electronic Resource
Evaluation framework for deepfake speech detection: a comparative study of state-of-the-art deepfake speech detectors
The proliferation of deepfake speech poses a significant threat to cybersecurity, from manipulating political speeches and impersonating public figures to spoofing voice biometric systems. The increasing sophistication of adversaries increases the necessity of deploying adaptive detection methods. Moreover, real-world incidents such as fraudulent financial transactions highlight the severity of the problem. Although numerous detectors have been developed, their evaluation remains difficult due to different methodologies and benchmark datasets, making direct comparisons impossible. This study presents a general and detailed framework for evaluating and comparing deepfake speech detectors. We further demonstrate the use of this framework to evaluate 40 state-of-the-art deepfake speech detectors under various conditions and data samples. We objectively compare these methods and identify the key attributes influencing performance the most. We also stress the issue of generalisation, as current detectors struggle to detect previously unseen deepfake speech samples or samples that have been modified. Finally, to strengthen the defence against synthetic audio content, we provide recommendations for improving the robustness of future detectors.
Maraknya penggunaan ucapan deepfake menimbulkan ancaman signifikan terhadap keamanan siber, mulai dari manipulasi pidato politik dan peniruan identitas tokoh publik hingga pemalsuan sistem biometrik suara. Meningkatnya kecanggihan musuh meningkatkan kebutuhan akan penerapan metode deteksi adaptif. Lebih lanjut, insiden di dunia nyata seperti transaksi keuangan palsu semakin memperparah masalah ini. Meskipun banyak detektor telah dikembangkan, evaluasinya masih sulit karena perbedaan metodologi dan kumpulan data tolok ukur, sehingga perbandingan langsung menjadi mustahil. Studi ini menyajikan kerangka kerja umum dan terperinci untuk mengevaluasi dan membandingkan detektor ucapan deepfake. Selanjutnya, kami mendemonstrasikan penggunaan kerangka kerja ini untuk mengevaluasi 40 detektor ucapan deepfake mutakhir dalam berbagai kondisi dan sampel data. Kami membandingkan metode-metode ini secara objektif dan mengidentifikasi atribut-atribut kunci yang paling memengaruhi kinerja. Kami juga menekankan masalah generalisasi, karena detektor yang ada saat ini kesulitan mendeteksi sampel ucapan deepfake yang sebelumnya tidak terlihat atau sampel yang telah dimodifikasi. Terakhir, untuk memperkuat pertahanan terhadap konten audio sintetis, kami memberikan rekomendasi untuk meningkatkan ketahanan detektor di masa mendatang.
Tidak ada salinan data
Tidak tersedia versi lain