Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Mathematics Background

Presentasi serupa


Presentasi berjudul: "Mathematics Background"— Transcript presentasi:

1 Mathematics Background
Text Mining

2 Latar Belakang Beberapa pengetahuan tentang statistic dan aljabar linear diperlukan untuk memahami dan membangun aplikasi text mining

3 Mean and Variance Text Mining - Mathematics Background

4 Latar Belakang Karakteristik dari populasi data yang sangat banyak bisa diperkirakan dari beberapa sample. Poin pentingnya ada 2 : Bagaimana kita bisa mendapatkan sample yang tidak bias dan berapa sample yang seharusnya diperlukan

5 Latar Belakang Untuk mendapatkan sample yang tidak bias tidak mudah juga, salah satu caranya kita bisa mengambil beberapa sample secara random.

6 Latar Belakang Lalu, bagaimana cara menentukan batas banyaknya sample yang harus diambil? Kita bisa menggunakan mean (pusat lokasi nilai data) dan variance (tingkat variasi nilai data) sebagai pendukung keputusannya

7 Mean Mean adalah rata-rata nilai sebuah data
Di mana N adalah jumlah populasi dan xi adalah nilai pada populasi ke-i

8 Standart Deviasi Standar Deviasi adalah besar perbedaan dari nilai sampel terhadap rata-rata. Di mana N adalah jumlah populasi dan xi adalah nilai pada populasi ke-I, sedangkan µ adalah nilai mean.

9 Variance Varian adalah ukuran persebaran (dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi Di mana N adalah jumlah populasi dan xi adalah nilai pada populasi ke-I, sedangkan µ adalah nilai mean.

10 Reuters Collection Reuters Collection berisi dokumen- dokumen berita yang sangat banyak. Misal kita ambil dokumen lalu kita cari mean, varian dan standart deviasinya.

11 Reuters Collection Misal kita analisis statistic dari beberapa kata berikut : Kata Mean Standart Deviasi And 2.79 3.57 Of 3.86 4.61 The 6.30 8.52 United 0.08 0.41 States 0.06 0.37 America 0.02 0.20 Kata and, of dan the sangat sering muncul. Kata the muncul paling banyak.

12 Reuters Collection Misal kita analisis statistic dari beberapa kata berikut : Kata Mean Standart Deviasi And 2.79 3.57 Of 3.86 4.61 The 6.30 8.52 United 0.08 0.41 States 0.06 0.37 America 0.02 0.20 Kata the memiliki standart deviasi yang tinggi, artinya sering muncul dalam jumlah yang jauh kurang dari atau lebih dari Mean-nya.

13 Reuters Collection Kebanyakan data yang memiliki Mean yang tinggi cenderung akan memiliki variance dan standart deviasi yang tinggi pula Bisa juga kita gambarkan dalam bentuk distribusi jumlah kemunculan

14 Reuters Collection

15 Probability Text Mining - Mathematics Background

16 Probability Probabilitas atau peluang adalah nilai di antara 0 dan 1 yang mengindikasikan seberapa mungkin sebuah kejadian atau beberapa kumpulan kejadian akan terjadi

17 Probability Nilai 0 mengindikasikan kejadian tidak akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan pernah terjadi Nilai di antara 0-1 mengindikasikan besarnya kemungkinan terjadi

18 Probability Contoh, kita bisa menghitung probabilitas kata and muncul tepat satu kali pada sebuah dokumen. Kita bisa tuliskan p(x) sebagai peluang kata and muncul x kali Atau P(X=x) peluang random variable X bernilai x

19 Probability Kadang kita tidak bisa menghitung rata- rata jumlah kemunculan sebuah kata dalam sebuah kumpulan dokumen karena, misal dokumenya sangat banyak

20 Probability Oleh karena itu, mean bisa diperkirakan dari Expected value Di mana E[X] adalah Expected value dari random variable x dijumlahkan semuanya untuk semua kemungkinan x

21 Probability Oleh karena itu, mean bisa dihitung dari Expected value
Namun, dengan menggunakan Expected value ini bisa jadi berbeda dengan mean yang sebenarnya

22 Probability Pengukuran lain adalah Covariance dan Correlation untuk membandingkan dua buah variable

23 Probability Covariance menggambarkan bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak Misal, menghitung Covariance dari variable X dan Y

24 Probability Misal, menghitung Covariance dari variable X dan Y
Nilai Kovarian yang tinggi mengindikasikan jika semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama. Sebaliknya, nilai Kovarian yang rendah mengindikasikan jika semakin besar nilai X, maka nilai Y malah semakin kecil, dan sebaliknya. Atau bisa dikatakan X dan Y punya perilaku yang berkebalikan.

25 Probability Sama halnya dengan Covariance, Correlation juga mengukur hubungan antara 2 buah variable, namun dengan hasil yang lebih mudah di interpretasikan

26 Probability Nilai Korelasi pasti di antara -1 sampai 1
Korelasi tinggi mengindikasikan jika semakin besar nilai X, maka semakin besar juga nilai Y, dan sebaliknya.

27 Probability Nilai Korelasi pasti di antara -1 sampai 1
Dari data dokumen berita Reuters, korelasi kemunculan ata United dan States adalah Artinya United dan States sering muncul dalam jumlah yang sama dalam dokumen manapun

28 Least Square Method Text Mining - Mathematics Background

29 Least Square Method Misal kita gambarkan hubungan antara probabilitas kemunculan kata United dan States dalam sebuah dokumen

30 Least Square Method Seperti pada gambar, ketika kata United muncul 4 kali dalam sebuah dokumen, maka ada peluang 0.6 kata States juga muncul sebanyak 4 kali dalam dokumen tersebut. ketika kata United muncul 5 kali dalam sebuah dokumen, maka ada peluang 0.75 kata States juga muncul sebanyak 5 kali dalam dokumen tersebut.

31 Least Square Method Probabilitasnya cenderung naik jika jumlah kemunculanya bertambah. Kita bisa menarik sebuah garis Regresi Garis regresi ini bisa digunakan untuk memprediksi probabilitas dari nilai x selanjutnya

32 Least Square Method Untuk membuat garis Regresi ini bisa membuat prediksi yang terbaik, maka garis regresi ini harus didefinisikan sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh Kita bisa menggunakan metode Least Square untuk meminimalisir jarak ini

33 Entropy Text Mining - Mathematics Background

34 Entropy Entropy bisa diartikan sebagai ketidak pastian
Entropy dalam Information Theory digunakan sebagai metode kompresi pada tahun 1940an untuk mengirim lebih banyak informasi dengan akurasi yang tinggi

35 Entropy Nilai Entropy yang tinggi berarti data berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari data tersebut Nilai Entropy yang rendah berarti data berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat ketidakpastianya kecil Nilai Entropy 0 berrarti 100% kepastian

36 Entropy Misal, dalam Bahasa Inggris, huruf u sering muncul setalah q. Ada sedikit ketidakpastian kalau huruf u sering muncul setalah q, sehingga nilai entropynya rendah

37 Entropy Entropy menghitung jumlah informasi yang dibutuhkan dalam menyelesaikan ketidakpastian Jika banyak ketidakpastian, maka kita perlu lebih banyak informasi yang dikirimkan, sehingga nilai Entropynya pun tinggi

38 Entropy Di mana pi adalah peluang kata wi
Untuk dua buah kata dengan peluang dan 0.25, entropynya adalah 0.811 Untuk dua buah kata dengan peluang 0.5 dan 0.5, entropynya adalah 1 Entropy bertambah seiring banyaknya ketidakpastian

39 Related-Event Probability
Text Mining - Mathematics Background

40 Related-Event Probability
Misal ada sebuah Bahasa yang hanya terdiri dari 3 kata : (apple, baker, charlie) Jika dalam Bahasa tersebut hanya bisa membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah {apple apple, baker baker, Charlie Charlie, apple baker, apple Charlie, baker apple, baker Charlie, Charlie apple, Charlie baker}

41 Related-Event Probability
Kemungkinan terjadi kata apple baker adalah 1/9 dan kemungkinan tidak terjadi adalah 8/9 P(apple) : Peluang apple muncul minimal satu kali adalah 5/9 P(apple ∩ baker) : Peluang apple dan baker muncul bersama adalah 2/9 P(apple U baker) : Peluang apple atau baker muncul adalah 8/9

42 Related-Event Probability
P(apple|baker) : Peluang muncul apple jika kata baker muncul juga adalah 2/5 P(apple|baker) = 2/9 / 5/9 = 2/5

43 Related-Event Probability
Misal, kita memiliki dua event a1 dan c2 a1 : Kalimat berawalan apple c2 : Kalimat berakhiran Charlie Jika p(a1|c2) = p(a1), maka dua kejadian ini independent, tidak saling mempengaruhi, sehingga

44 Related-Event Probability

45 Bayes Rule Text Mining - Mathematics Background

46 Bayes Rule Misal di pulau terpencil hidup seorang manusia
Kita tidak tahu jenis kelaminya apa P(pria) adalah peluang manusia tersebut berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin wanita P(pria)= P(wanita) =1/2 Ini disebut sebagai prior probability, nilai peluang sebelum mendapatan informasi

47 Bayes Rule Lalu kita mendapat info kalau orang tersebut suka main sepakbola (kejadian s), maka sekarang P(pria) akan berubah karena adanya informasi baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability

48 Probability Distribution
Text Mining - Mathematics Background

49 Binomial Distribution
A fixed number of observations (trials), n e.g., 15 tosses of a coin; 20 patients; 1000 people surveyed A binary outcome e.g., head or tail in each toss of a coin; disease or no disease Generally called “success” and “failure” Probability of success is p, probability of failure is 1 – p Constant probability for each observation e.g., Probability of getting a tail is the same each time we toss the coin

50 Binomial distribution
Take the example of 5 coin tosses. What’s the probability that you flip exactly 3 heads in 5 coin tosses?

51 Binomial distribution
Solution: One way to get exactly 3 heads: HHHTT What’s the probability of this exact arrangement? P(heads)xP(heads) xP(heads)xP(tails)xP(tails) =(1/2)3 x (1/2)2 Another way to get exactly 3 heads: THHHT Probability of this exact outcome = (1/2)1 x (1/2)3 x (1/2)1 = (1/2)3 x (1/2)2

52 Binomial distribution
In fact, (1/2)3 x (1/2)2 is the probability of each unique outcome that has exactly 3 heads and 2 tails. So, the overall probability of 3 heads and 2 tails is: (1/2)3 x (1/2)2 + (1/2)3 x (1/2)2 + (1/2)3 x (1/2)2 + ….. for as many unique arrangements as there are—but how many are there??

53 Binomial distribution
Outcome Probability THHHT (1/2)3 x (1/2)2 HHHTT (1/2)3 x (1/2)2 TTHHH (1/2)3 x (1/2)2 HTTHH (1/2)3 x (1/2)2 HHTTH (1/2)3 x (1/2)2 HTHHT (1/2)3 x (1/2)2 THTHH (1/2)3 x (1/2)2 HTHTH (1/2)3 x (1/2)2 HHTHT (1/2)3 x (1/2)2 THHTH (1/2)3 x (1/2)2 10 arrangements x (1/2)3 x (1/2)2 The probability of each unique outcome (note: they are all equal) ways to arrange 3 heads in 5 trials 5C3 = 5!/3!2! = 10 Factorial review: n! = n(n-1)(n-2)…

54 Binomial distribution
P(3 heads and 2 tails) = x P(heads)3 x P(tails)2 = 10 x (½)5=31.25%

55 Binomial distribution
Binomial distribution function: X= the number of heads tossed in 5 coin tosses p(x) p(x) x 1 2 3 4 5 number of heads number of heads

56 Binomial distribution, generally
Note the general pattern emerging  if you have only two possible outcomes (call them 1/0 or yes/no or success/failure) in n independent trials, then the probability of exactly X “successes”= n = number of trials 1-p = probability of failure p = probability of success X = # successes out of n trials

57 Binomial distribution: example
If I toss a coin 20 times, what’s the probability of getting exactly 10 heads?

58 Binomial distribution: example
If I toss a coin 20 times, what’s the probability of getting of getting 2 or fewer heads?

59 **All probability distributions are characterized by an expected value and a variance:
If X follows a binomial distribution with parameters n and p: X ~ Bin (n, p) Then: E(X) = np Var (X) = np(1-p) SD (X)= Note: the variance will always lie between 0*N-.25 *N p(1-p) reaches maximum at p=.5 P(1-p)=.25

60 The Poisson Distribution
The Poisson distribution is defined by: Where f(x) is the probability of x occurrences in an interval is the expected value or mean value of occurrences within an interval e is the natural logarithm. e =

61 Properties of the Poisson Distribution
The probability of occurrences is the same for any two intervals of equal length. The occurrence or nonoccurrence of an event in one interval is independent of an occurrence on nonoccurrence of an event in any other interval

62 Example: Mercy Hospital
Poisson Probability Function Patients arrive at the emergency room of Mercy Hospital at the average rate of 6 per hour on weekend evenings. What is the probability of 4 arrivals in 30 minutes on a weekend evening?

63 Example: Mercy Hospital
 = 6/hour = 3/half-hour, x = 4

64 The Normal Distribution

65 The Normal Distribution: as mathematical function (pdf)
This is a bell shaped curve with different centers and spreads depending on  and  Note constants: = e=

66 The Normal PDF It’s a probability function, so no matter what the values of  and , must integrate to 1!

67 Normal distribution is defined by its mean and standard dev.
E(X)= = Var(X)=2 = Standard Deviation(X)=

68 **The beauty of the normal curve:
No matter what  and  are, the area between - and + is about 68%; the area between -2 and +2 is about 95%; and the area between -3 and +3 is about 99.7%. Almost all values fall within 3 standard deviations.

69 Rule SAY: within 1 standard deviation either way of the mean within 2 standard deviations of the mean within 3 standard deviations either way of the mean WORKS FOR ALL NORMAL CURVES NO MATTER HOW SKINNY OR FAT

70 Rule in Math terms…

71 How good is rule for real data?
Check some example data: The mean of the weight of the women = 127.8 The standard deviation (SD) = 15.5

72 68% of 120 = .68x120 = ~ 82 runners In fact, 79 runners fall within 1-SD (15.5 lbs) of the mean. 112.3 127.8 143.3

73 95% of 120 = .95 x 120 = ~ 114 runners In fact, 115 runners fall within 2-SD’s of the mean. 96.8 127.8 158.8

74 99.7% of 120 = .997 x 120 = runners In fact, all 120 runners fall within 3-SD’s of the mean. 81.3 127.8 174.3

75 Sampling Distribution
Text Mining - Mathematics Background

76 Sampling Distribution
Dalam teks mining, alasan untuk melakukan sampling sangat jelas, yaitu kita tidak bisa mengkases semua teks online yang tersedia dalam berbagai Bahasa dan sampling adalah satu- satunya cara untuk membangun representasi model semua teks tersebut

77 Sampling Distribution
Beberapa tipe sampling yang bisa dipakai Statistic Population Distribution Population Variance Sample Distribution Mean Normal Known Unknown Student-t Variance Chi-Square

78 Hypothesis Testing Text Mining - Mathematics Background

79 Hypothesis Testing Hipotesis adalah teori yang belum teruji yang diyakini berdasarkan data yang atau pengalaman sudah terkumpul H0 adalah null Hipotesis, hipotesis yang diyakini tidak benar H0 adalah hipotesis yang diyakini benar Test Result H0 True H1 True H0 diterima Benar Type II Error H1 diterima Type I Error

80 Chi-Square Test Misal kita mendapatkan spam dan yang bukan spam pada hari libur maupun hari aktif Bisakah kita membangun sebuah hubungan antara tipe dan hari pengirimanya Type Weekday Weekend Total Spam 73 145 218 Bukan Spam 182 100 282 255 245 500

81 Chi-Square Test Expected Frequency(EF) bisa dihitung dengan distribusi normal. EF(Spam, Weekday) adalah EF spam pada weekday EF(Spam, Weekday) = 255x218/500 = Dst, sehingga didapat nlai Expected Frequency(EF) : Type Weekday Weekend Total Spam 111.18 106.82 218 Bukan Spam 143.82 138.18 282 245.00 500

82 Chi-Square Test Chi-square bisa dihitung dengan rumus
Oij adalah frekuensi yang diobservasi dan Eij adalah frekuensi yang diharapkan (expected Frequency) Koreksi 0.5 digunakan untuk meningkatkan perkiraan distribusi chi-square. Hasilnya :

83 Chi-Square Test Chi-square bisa dihitung dengan rumus
Nilai Chi-square Spam pada Weekdays = (| |+0.5)2 / = / = Type Weekday Weekend Spam 13.45 14.00 Bukan Spam 10.40 10.82

84 Chi-Square Test Jumlah totalnya = 48.67
Untuk chi-square dengan 1 degree of freedom minimalnya adalah 6.635 Jadi H0 ditolak Oleh karena itu, memang ada hubungan antara hari dan tipe Type Weekday Weekend Spam 13.45 14.00 Bukan Spam 10.40 10.82

85 T-Test Kalau Chi-square membandingkan variance, kalau t-test membandingkan nilai tunggal seperti mean. Misal kita memiliki koleksi dokumen yang dimasukkan ke dalam 8 kategori Dokumen yang tidak bisa dikategorikan di masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut Kita akan mengetes sebuah algoritma kategorisasi sebelum dan sesudah algoritma tersebut diperbaiki / ditingkatkan Kita ingin mengetahui apakah peningkatan performa algoritma tersebut signifikan atau tidak

86 T-Test Algoritma awal : Jumlah dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1- 8 adalah sejumlah 15, 18, 20, 6, 8, 17, 20, dan 9. Algoritma sesudah ditingkatkan : Jumlah dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 18, 22, 21, 6, 10, 17, 21, dan 7. Kalau dari jumlah yang benar, kelihatanya performa algoritma ini sudah mengalami peningkatan, tapi signifikan kah?

87 T-Test H0 : hipotesis menyatakan tidak ada perubahan performa
Kita hitung dulu mean dari perbedaan jumlah kategori benar Mean = ((18-15)+(22-18)+(21-20)+(6-6)+(10- 8)+(17-17)+(21-20)+(7-9))/8 = 1.125 Standart deviasinya kalau kita hitung 1.76

88 T-Test T-Test dengan 7 degree of freedoms
C1 dan c2 adalah julah dokumen terkategorisasi benar sebelum dan sesudah peningkatan algoritma dan s adalah standart deviasi Karena nilai t kurang dari (Lihat table distribusi t dengan 7 degree of freedoms), maka H0 diterima Jadi, algoritma tidak mengalami peningkatan performa yang signifikan

89 Matriks Text Mining - Mathematics Background

90 Matriks Persamaan ditemukan pada banyak aplikasi teks mining, mulai dari POS tagging, indexing, monitor traffic, dsb Aljabar linear adalah ilmu untuk menyelesaikan persamaan ini Matriks dan vector dapat dipakai sebagai representasi untuk mendeskripsikan persamaan ini agar lebih mudah diselesaikan

91 Matriks Misal transisi tiga part-of-speech (POS) dalam sebuah dokumen digambarkan dalam gambar berikut

92 Matriks Bisa kita representasikan ke dalam sebuah matriks berikut :
Noun Adjective Verb 0.50 0.00 0.25

93 Matriks Salah satu penggunaan matriks yang lain adalah dalam mengerjakan metode Singular Value Decomposition (SVD)


Download ppt "Mathematics Background"

Presentasi serupa


Iklan oleh Google