data & Pendidikan
consultant
Analisis Studi Kasus Diabetes
Analisis ini menggunakan program bahasa Python untuk menganalisis berbagai aspek Diabetes pada suku Indian Pima dengan melakukan Analisis Data Eksplorasi.
KONTEKS:
Diabetes merupakan salah satu penyakit yang paling sering terjadi di seluruh dunia dan jumlah penderita diabetes terus bertambah dari tahun ke tahun. Penyebab utama diabetes masih belum diketahui, namun para ilmuwan percaya bahwa faktor genetik dan gaya hidup lingkungan berperan besar dalam terjadinya diabetes.
Beberapa tahun lalu, penelitian dilakukan pada sebuah suku di Amerika yang disebut suku Pima (juga dikenal sebagai Suku Indian Pima). Di suku ini, ditemukan bahwa para wanita rentan terhadap diabetes sejak dini. Beberapa kendala diberlakukan pada pemilihan kasus-kasus ini dari basis data yang lebih besar. Secara khusus, semua pasien adalah wanita berusia minimal 21 tahun yang merupakan keturunan Suku Indian Pima.
Dataset memiliki informasi berikut:
Kehamilan: Jumlah kali hamil
Glukosa: Konsentrasi glukosa plasma selama 2 jam dalam tes toleransi glukosa oral
Tekanan Darah: Tekanan darah diastolik (mm Hg)
Ketebalan Kulit: Ketebalan lipatan kulit trisep (mm)
Insulin: Insulin serum 2 jam (mu U/ml)
BMI: Indeks massa tubuh (berat dalam kg/(tinggi dalam m)^2)
DiabetesPedigreeFunction: Fungsi yang menilai kemungkinan diabetes berdasarkan riwayat keluarga.
Usia: Usia dalam tahun
Hasil: Variabel kelas (0: seseorang bukan penderita diabetes atau 1: seseorang menderita diabetes)
# impor numpy sebagai np
impor panda sebagai pd
impor seaborn sebagai sns
impor matplotlib.pyplot sebagai plt %matplotlib
cetak sebaris
kumpulan data = pd.read_csv ("diabetes.csv") kumpulan data.head()
kumpulan data.ekor(758)
kumpulan data.iloc[: , 0 : 8].sum()
dataset.jelaskan ().T
sns.displot(kumpulan data['Tekanan Darah'], jenis = 'kde')
plt.tampilkan()
sns.pairplot(data = dataset, vars = ['Glukosa', 'KetebalanKulit', 'FungsiSilsilahDiabetes'], hue = 'Hasil') plt.show()
plt.scatter(x = 'Glukosa', y = 'Insulin', data = dataset) plt.show()
plt.boxplot(dataset['Usia']) plt.title('Boxplot Usia') plt.ylabel('Usia') plt.show()
plt.boxplot(dataset[dataset['Outcome'] == 1]['Usia']) plt.title('Distribusi Usia Wanita yang Menderita Diabetes') plt.xlabel('Usia') plt.ylabel('Frekuensi')
plt.tampilkan()
matriks_koreksi = matriks_koreksi = kumpulan data.corr() matriks_koreksi
plt.figure(ukuran gambar = (8, 8)) sns.heatmap(matriks_kor, annot = Benar) plt.show()
Hasil pengamatan: Dari heatmap di atas, terlihat bahwa ada tiga variabel yang sangat berkorelasi dengan diabetes, yaitu: usia, kehamilan, ketebalan kulit, BMI, dan glukosa. Usia dan kehamilan memiliki nilai yang sama (0,54), artinya keduanya mengandung informasi yang serupa. Begitu pula dengan BMI dan ketebalan kulit (0,53). Sedangkan variabel yang paling signifikan berkorelasi dengan diabetes adalah kadar glukosa (0,49), dan kadar insulin (0,40).