2  Memahami R

2.1 Mengapa R

Salah satu keunggulan menggunakan R adalah menyediakan fitur yang lengkap untuk analisis data dan visualisasi data, sedangkan dapat diperoleh secara gratis.

2.1.1 Manajemen Data

Manajemen data merupakan proses paling emnantang dalam analisis data pada umumnya dan analisis data sekunder pada umumnya. Salah satu perngkat lunak yang bisa digunakan untuk melakukan manajemen data adalah STATA, biasanya digunakan oleh ahli ekonometri dan kesehatan masyarakat. Namun demikian, STATA merupakan perangkat lunak berbayar, sehingga penulis mnyarakan untuk menggunakan R dengan paket dplyr yang mempunyai kemampuan yang baik untuk melakukan manajemen data denngan baik dan dapat dilakukan dengan relatif mudah.

Manajemen data merupakan proses paling menentukan dalam proses analisis data. Jika penelit tidak melakukan manjemen data dengan baik, maka kemungkinan yang akan terjadi adalah kesalahan dalam melakukan analisis data atau estimasi. Misalnya, jika satu variabel seharusnya dihitung secara terbalik, namun tidak dibalik oleh peneliti, maka hasilnya dapat menyesatkan.

Manajemen data dengan R akan lebih mudah jika menggunanakan paket dplyr.

2.2 Mengenal Data

Sebelum mengkaji lebih lanjut mengenai statistika, kita perlu memahami jenis data. Jenis data statistika dapat dibagi menjadi dua, yaitu data kualitatif dan data kuantitatif. Data kualitatif adalah data yang dapat diukur secara tidak langsung, seperti warna, rasa, bentuk, dan lain-lain. Sedangkan data kuantitatif adalah data yang dapat diukur secara langsung, seperti tinggi, berat, dan jumlah.

Data nominal adalah jenis data kualitatif yang tidak memiliki urutan atau peringkat tertentu. Contoh data nominal antara lain jenis kelamin, warna, dan status perkawinan. Data nominal biasa digunakan untuk menngetahui aspek demografis yang melekat pada individu. Data rasio adalah jenis data kuantitatif yang memiliki angka, satuan ukuran, dan titik nol yang bermakna. Contoh data rasio antara lain tinggi badan, berat badan, dan usia. Data ordinal adalah jenis data kualitatif yang memiliki urutan atau peringkat tertentu. Contoh data ordinal antara lain tingkat pendidikan, jabatan, dan kelas sosial. Data interval adalah jenis data kuantitatif yang memiliki satuan ukuran tetapi tidak memiliki titik nol yang bermakna. Contoh data interval antara lain waktu, IQ, nilai siswa, dan skor tes.

Note

Data berbeda dengan skala, karena data hanya berbicara bentuk dan tipe sedangkan skala berkaitan dengan tingkat.

Tip

Ketika mengenali data kita sebaiknya memperhatikan bagaimana data tersebut dibuat atau berasal

2.3 Jenis data R

Pemahaman data yang baik dapat membantu kita untuk menentukan jenis atau teknik analisis yang sesuai.

Tipe dan struktur data adalah hal yang paling dasar untuk memahami data dan bagaimana cara mengolahnya. R memiliki cara sendiri dalam me

2.3.1 Tipe data

R memiliki beberapa jenis tipe data yang masing-masing merepresentasikan data berbeda. Fungsi class dapat digunakan untuk mengecek tipe dari suatu data. Tipe data dapat dikonversi ke tipe lain jika data sesuai dengan tipe data yang dituju.

Tipe Deskripsi
Numerik Data angka yang dapat dilakukan operasi matematika
Karakter Data teks yang dapat mengandung huruf dan simbol
Integer Data angka bilangan bulat untuk mempercepat proses komputasi
Logical Data yang hanya terdiri dari TRUE dan FALSE
Complex Data angka yang mengandung bilangan imajiner

2.3.1.1 Numerik

Data numerik berisi angka dan bilangan desimal atau kontinu.

Contoh data numerik

num <- 2
num
[1] 2
class(num)
[1] "numeric"
num <- 2.5
num
[1] 2.5
class(num)
[1] "numeric"
num <- 2e3
num
[1] 2000
class(num)
[1] "numeric"

Operasi matematika sederhana

num <- 2 + 3
num
[1] 5
num <- 2 / 4
num
[1] 0.5

2.3.1.2 Karakter

Data karakter adalah data teks yang dapat mengandung huruf, simbol, dan angka. Data karakter dibuat dengan menggunakan tanda petik dua (“…”).

kar <- "2"
kar
[1] "2"
class(kar)
[1] "character"
kar <- "1a!"
kar
[1] "1a!"
class(kar)
[1] "character"
kar <- "Hello world"
kar
[1] "Hello world"
class(kar)
[1] "character"

2.3.1.3 Integer

Data integer adalah data bilangan bulat atau diskrit dan dapat dilakukan operasi matematika seperti data numerik. Data integer memiliki ukuran data yang lebih kecil daripada data numerik sehingga dapat meringankan dan mempercepat proses komputasi.

int <- 2L
int
[1] 2
class(int)
[1] "integer"

2.3.1.4 Logical

Data logical hanya terdiri dari dua elemen saja yakni TRUE dan FALSE.

logi <- TRUE
logi
[1] TRUE
class(logi)
[1] "logical"

2.3.1.5 Kompleks

Data kompleks adalah data yang mengandung bilangan imajiner (i).

kom <- 1+2i
kom
[1] 1+2i
class(kom)
[1] "complex"

2.3.2 Struktur data

Struktur Deskripsi
Vektor Data yang disusun memanjang, semua data memiliki tipe yang sama
Matriks Data yang disusun dalam dimensi kolom dan baris, semua data memiliki tipe yang sama
Dataframe Data yang disusun dalam dimensi kolom dan baris, tipe data bisa berbeda-beda setiap kolom
List Data yang dapat diisi data tunggal, vektor, matriks, ataupun dataframe
Factor Data yang sama seperti vektor namun memiliki urutan level pada datanya

2.3.2.1 Vektor

What’s vector

Membuat vektor yang diisi secara manual

Mengambil data dari vektor

Vektor jika tipe data yang dimasukkan tidak sama

Membuat vektor yang berisi nomor urut

Membuat vektor yang berisi nomor urut dengan kelipatan tertentu

Membuat vektor yang isinya berulang-ulang

num <- c(1,2,3)
class(num)
[1] "numeric"
typeof(num)
[1] "double"
str(num)
 num [1:3] 1 2 3

2.3.2.2 Matriks

Membuat matriks: cbind, rbind, matrix

Mengambil data dari matriks

vek1 <- c(1,2,3)
vek2 <- c(1,2,3)
mat <- cbind(vek1, vek2)
mat
     vek1 vek2
[1,]    1    1
[2,]    2    2
[3,]    3    3
class(mat)
[1] "matrix" "array" 
typeof(mat)
[1] "double"
str(mat)
 num [1:3, 1:2] 1 2 3 1 2 3
 - attr(*, "dimnames")=List of 2
  ..$ : NULL
  ..$ : chr [1:2] "vek1" "vek2"
mat <- rbind(vek1, vek2)
mat
     [,1] [,2] [,3]
vek1    1    2    3
vek2    1    2    3
class(mat)
[1] "matrix" "array" 
vek3 <- 1:6
mat <- matrix(vek3, ncol=3)
mat
     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6
mat3 <- matrix(vek3, nrow=2, byrow=TRUE)
mat3
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6

2.3.2.3 Data frame

Membuat dataframe

Melihat struktur dari dataframe

Melihat ringkasan data

Mengambil data dari dataframe

usia <- c(26, 24, 25, 21, 24)
jenis_kelamin <- c("perempuan", "perempuan", "laki-laki", "perempuan", "laki-laki")
df <- data.frame(usia, jenis_kelamin)
df
  usia jenis_kelamin
1   26     perempuan
2   24     perempuan
3   25     laki-laki
4   21     perempuan
5   24     laki-laki
str(df)
'data.frame':   5 obs. of  2 variables:
 $ usia         : num  26 24 25 21 24
 $ jenis_kelamin: chr  "perempuan" "perempuan" "laki-laki" "perempuan" ...

2.3.2.4 List

Membuat list sederhana

Membuat list yang berisi matriks atau dataframe

Mengambil data dari list

2.3.2.5 Faktor

Faktor memiliki sifat yang sama seperti vektor, namun memiliki urutan level pada datanya. Faktor digunakan untuk merepresentasikan data ordinal.

Membuat faktor dengan fungsi factor .

vek <- c("tinggi", "tinggi", "sedang", "tinggi", "sedang", "rendah", "tinggi")
fac <- factor(vek)
fac
[1] tinggi tinggi sedang tinggi sedang rendah tinggi
Levels: rendah sedang tinggi

factor secara otomatis akan mengurutkan level berdasarkan urutan abjad. Untuk menentukan urutan level secara manual, tambahkan argumen levels.

fac <- factor(vek, levels=c("tinggi", "sedang", "rendah"))
fac
[1] tinggi tinggi sedang tinggi sedang rendah tinggi
Levels: tinggi sedang rendah

Fungsi levels dan nlevels dapat digunakan untuk melihat hanya level faktor saja dan jumlah level yang ada dalam faktor.

levels(fac)
[1] "tinggi" "sedang" "rendah"
nlevels(fac)
[1] 3