COUGH SOUND ANALYSIS WITH DEEP LEARNING: THE IMPACT OF DATA AUGMENTATION ON RESPIRATORY DISEASE CLASSIFICATION
Özet
Respiratory diseases affect millions globally, necessitating efficient and early diagnostic tools to mitigate complications. This study proposes a robust and systematic approach for classifying asthma, COPD, pneumonia, and healthy conditions using cough sound analysis. Mel-frequency cepstral coefficients (MFCCs) were extracted and used to train both a deep learning model (CNN) and traditional classifiers (Random Forest, SVM) under limited and imbalanced data conditions. A major focus was on evaluating the impact of data augmentation and model choice on classification performance. Initial results showed that traditional models outperformed the CNN due to overfitting. However, with progressive augmentation up to 800 synthetic samples per class and the use of Dice Loss, the CNN model achieved substantial improvements, reaching 84% accuracy and a Macro F1 Score of 69%. These results highlight the critical role of data augmentation and tailored training strategies in enhancing the performance of deep learning models for audio-based biomedical classification tasks. Solunum yolu hastalıkları küresel olarak milyonlarca kişiyi etkileyerek komplikasyonları azaltmak için etkili ve erken tanı araçlarının gerekliliğini ortaya koymaktadır. Bu çalışma, öksürük sesi analizini kullanarak astım, KOAH, zatürre ve sağlıklı durumları sınıflandırmak için sağlam ve sistematik bir yaklaşım önermektedir. Mel-frekans cepstral katsayıları (MFCC'ler) çıkarılarak ve sınırlı olan dengesiz veri koşulları altında hem derin öğrenme modelini (CNN) hem de geleneksel sınıflandırıcıları (Rastgele Orman, SVM) eğitmek için kullanılmıştır. Çalışmanın başlıca odak noktası, veri artırmanın ve model seçiminin sınıflandırma performansı üzerindeki etkisini değerlendirmektir. İlk sonuçlar, aşırı uyum nedeniyle geleneksel modellerin CNN'den daha iyi performans gösterdiğini göstermiştir. Ancak, sınıf başına 800 sentetik örneğe kadar kademeli artırma ve Dice Loss kullanımıyla CNN modeli önemli iyileştirmeler elde ederek %84 doğruluk ve %69'luk bir Makro F1 Puanı elde edildi. Bu sonuçlar, ses tabanlı biyomedikal sınıflandırma görevleri için derin öğrenme modellerinin performansını artırmada veri artırmanın ve özel eğitim stratejilerinin kritik rolünü vurgulamaktadır.
Cilt
13Sayı
3Koleksiyonlar
- Öksüz Yayınlar [623]
















