<- 2
num num
[1] 2
class(num)
[1] "numeric"
Salah satu keunggulan menggunakan R adalah menyediakan fitur yang lengkap untuk analisis data dan visualisasi data, sedangkan dapat diperoleh secara gratis.
Manajemen data merupakan proses paling emnantang dalam analisis data pada umumnya dan analisis data sekunder pada umumnya. Salah satu perngkat lunak yang bisa digunakan untuk melakukan manajemen data adalah STATA, biasanya digunakan oleh ahli ekonometri dan kesehatan masyarakat. Namun demikian, STATA merupakan perangkat lunak berbayar, sehingga penulis mnyarakan untuk menggunakan R dengan paket dplyr yang mempunyai kemampuan yang baik untuk melakukan manajemen data denngan baik dan dapat dilakukan dengan relatif mudah.
Manajemen data merupakan proses paling menentukan dalam proses analisis data. Jika penelit tidak melakukan manjemen data dengan baik, maka kemungkinan yang akan terjadi adalah kesalahan dalam melakukan analisis data atau estimasi. Misalnya, jika satu variabel seharusnya dihitung secara terbalik, namun tidak dibalik oleh peneliti, maka hasilnya dapat menyesatkan.
Manajemen data dengan R akan lebih mudah jika menggunanakan paket dplyr.
Sebelum mengkaji lebih lanjut mengenai statistika, kita perlu memahami jenis data. Jenis data statistika dapat dibagi menjadi dua, yaitu data kualitatif dan data kuantitatif. Data kualitatif adalah data yang dapat diukur secara tidak langsung, seperti warna, rasa, bentuk, dan lain-lain. Sedangkan data kuantitatif adalah data yang dapat diukur secara langsung, seperti tinggi, berat, dan jumlah.
Data nominal adalah jenis data kualitatif yang tidak memiliki urutan atau peringkat tertentu. Contoh data nominal antara lain jenis kelamin, warna, dan status perkawinan. Data nominal biasa digunakan untuk menngetahui aspek demografis yang melekat pada individu. Data rasio adalah jenis data kuantitatif yang memiliki angka, satuan ukuran, dan titik nol yang bermakna. Contoh data rasio antara lain tinggi badan, berat badan, dan usia. Data ordinal adalah jenis data kualitatif yang memiliki urutan atau peringkat tertentu. Contoh data ordinal antara lain tingkat pendidikan, jabatan, dan kelas sosial. Data interval adalah jenis data kuantitatif yang memiliki satuan ukuran tetapi tidak memiliki titik nol yang bermakna. Contoh data interval antara lain waktu, IQ, nilai siswa, dan skor tes.
Data berbeda dengan skala, karena data hanya berbicara bentuk dan tipe sedangkan skala berkaitan dengan tingkat.
Ketika mengenali data kita sebaiknya memperhatikan bagaimana data tersebut dibuat atau berasal
Pemahaman data yang baik dapat membantu kita untuk menentukan jenis atau teknik analisis yang sesuai.
Tipe dan struktur data adalah hal yang paling dasar untuk memahami data dan bagaimana cara mengolahnya. R memiliki cara sendiri dalam me
R memiliki beberapa jenis tipe data yang masing-masing merepresentasikan data berbeda. Fungsi class dapat digunakan untuk mengecek tipe dari suatu data. Tipe data dapat dikonversi ke tipe lain jika data sesuai dengan tipe data yang dituju.
Tipe | Deskripsi |
---|---|
Numerik | Data angka yang dapat dilakukan operasi matematika |
Karakter | Data teks yang dapat mengandung huruf dan simbol |
Integer | Data angka bilangan bulat untuk mempercepat proses komputasi |
Logical | Data yang hanya terdiri dari TRUE dan FALSE |
Complex | Data angka yang mengandung bilangan imajiner |
Data numerik berisi angka dan bilangan desimal atau kontinu.
Contoh data numerik
<- 2
num num
[1] 2
class(num)
[1] "numeric"
<- 2.5
num num
[1] 2.5
class(num)
[1] "numeric"
<- 2e3
num num
[1] 2000
class(num)
[1] "numeric"
Operasi matematika sederhana
<- 2 + 3
num num
[1] 5
<- 2 / 4
num num
[1] 0.5
Data karakter adalah data teks yang dapat mengandung huruf, simbol, dan angka. Data karakter dibuat dengan menggunakan tanda petik dua (“…”).
<- "2"
kar kar
[1] "2"
class(kar)
[1] "character"
<- "1a!"
kar kar
[1] "1a!"
class(kar)
[1] "character"
<- "Hello world"
kar kar
[1] "Hello world"
class(kar)
[1] "character"
Data integer adalah data bilangan bulat atau diskrit dan dapat dilakukan operasi matematika seperti data numerik. Data integer memiliki ukuran data yang lebih kecil daripada data numerik sehingga dapat meringankan dan mempercepat proses komputasi.
<- 2L
int int
[1] 2
class(int)
[1] "integer"
Data logical hanya terdiri dari dua elemen saja yakni TRUE dan FALSE.
<- TRUE
logi logi
[1] TRUE
class(logi)
[1] "logical"
Data kompleks adalah data yang mengandung bilangan imajiner (i).
<- 1+2i
kom kom
[1] 1+2i
class(kom)
[1] "complex"
Struktur | Deskripsi |
---|---|
Vektor | Data yang disusun memanjang, semua data memiliki tipe yang sama |
Matriks | Data yang disusun dalam dimensi kolom dan baris, semua data memiliki tipe yang sama |
Dataframe | Data yang disusun dalam dimensi kolom dan baris, tipe data bisa berbeda-beda setiap kolom |
List | Data yang dapat diisi data tunggal, vektor, matriks, ataupun dataframe |
Factor | Data yang sama seperti vektor namun memiliki urutan level pada datanya |
What’s vector
Membuat vektor yang diisi secara manual
Mengambil data dari vektor
Vektor jika tipe data yang dimasukkan tidak sama
Membuat vektor yang berisi nomor urut
Membuat vektor yang berisi nomor urut dengan kelipatan tertentu
Membuat vektor yang isinya berulang-ulang
<- c(1,2,3)
num class(num)
[1] "numeric"
typeof(num)
[1] "double"
str(num)
num [1:3] 1 2 3
Membuat matriks: cbind, rbind, matrix
Mengambil data dari matriks
<- c(1,2,3)
vek1 <- c(1,2,3)
vek2 <- cbind(vek1, vek2)
mat mat
vek1 vek2
[1,] 1 1
[2,] 2 2
[3,] 3 3
class(mat)
[1] "matrix" "array"
typeof(mat)
[1] "double"
str(mat)
num [1:3, 1:2] 1 2 3 1 2 3
- attr(*, "dimnames")=List of 2
..$ : NULL
..$ : chr [1:2] "vek1" "vek2"
<- rbind(vek1, vek2)
mat mat
[,1] [,2] [,3]
vek1 1 2 3
vek2 1 2 3
class(mat)
[1] "matrix" "array"
<- 1:6
vek3 <- matrix(vek3, ncol=3)
mat mat
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
<- matrix(vek3, nrow=2, byrow=TRUE)
mat3 mat3
[,1] [,2] [,3]
[1,] 1 2 3
[2,] 4 5 6
Membuat dataframe
Melihat struktur dari dataframe
Melihat ringkasan data
Mengambil data dari dataframe
<- c(26, 24, 25, 21, 24)
usia <- c("perempuan", "perempuan", "laki-laki", "perempuan", "laki-laki")
jenis_kelamin <- data.frame(usia, jenis_kelamin)
df df
usia jenis_kelamin
1 26 perempuan
2 24 perempuan
3 25 laki-laki
4 21 perempuan
5 24 laki-laki
str(df)
'data.frame': 5 obs. of 2 variables:
$ usia : num 26 24 25 21 24
$ jenis_kelamin: chr "perempuan" "perempuan" "laki-laki" "perempuan" ...
Membuat list sederhana
Membuat list yang berisi matriks atau dataframe
Mengambil data dari list
Faktor memiliki sifat yang sama seperti vektor, namun memiliki urutan level pada datanya. Faktor digunakan untuk merepresentasikan data ordinal.
Membuat faktor dengan fungsi factor
.
<- c("tinggi", "tinggi", "sedang", "tinggi", "sedang", "rendah", "tinggi")
vek <- factor(vek)
fac fac
[1] tinggi tinggi sedang tinggi sedang rendah tinggi
Levels: rendah sedang tinggi
factor
secara otomatis akan mengurutkan level berdasarkan urutan abjad. Untuk menentukan urutan level secara manual, tambahkan argumen levels.
<- factor(vek, levels=c("tinggi", "sedang", "rendah"))
fac fac
[1] tinggi tinggi sedang tinggi sedang rendah tinggi
Levels: tinggi sedang rendah
Fungsi levels
dan nlevels
dapat digunakan untuk melihat hanya level faktor saja dan jumlah level yang ada dalam faktor.
levels(fac)
[1] "tinggi" "sedang" "rendah"
nlevels(fac)
[1] 3