Information Extraction & NER Naive Bayes Based NER Information Extraction & NER
Naive Bayes Based NER D1 : Santika akan pergi ke Bali bersama Supriadi D2 : Hotel Santika berada di Jalan Merapi D3 : Supriadi menginap di Hotel Santika sebelum berangkat untuk mendaki Merapi D4 : Jalan Merapi macet sampai Jalan Supriadi
Naive Bayes Based NER D1 : Santika akan pergi ke Bali bersama Supriadi D2 : Hotel Santika berada di Jalan Merapi D3 : Supriadi menginap di Hotel Santika sebelum berangkat ke Merapi Center D4 : Jalan Merapi macet sampai Jalan Supriadi
Naive Bayes Based NER Nama Person : Santika, Supriadi, Supriadi Nama Organisasi : Santika, Santika, Merapi Nama Lokasi : Merapi, Merapi, Bali, Supriadi
Naive Bayes Based NER D5 : Supriadi akan menginap di Hotel Santika
Multinomial Naive Bayes Nama Person (P) : Santika, Supriadi, Supriadi Nama Organisasi (O) : Santika, Santika, Merapi Nama Lokasi (L) : Merapi, Merapi, Bali, Supriadi D5 : Supriadi akan menginap di Hotel Santika
Multinomial Naive Bayes W adalah kata C adalah kategori P(c I w) : Peluang kategori c dengan syarat muncul kata w P(c) : Peluang munculnya kategori c P(w) : Peluang munculnya kata w
Multinomial Naive Bayes Karena nilai P(w) selalu sama, bisa juga dituliskan menjadi cukup : P(w | c)* P(c)
Multinomial Naive Bayes 𝑃 𝑤|𝑐 = 𝑐𝑜𝑢𝑛𝑡(𝑤,𝑐) 𝑐𝑜𝑢𝑛𝑡(𝑐) Untuk menghindari adanya nilai 0 (nol), digunakan add-one or Laplace smoothing 𝑃 𝑤|𝑐 = 𝑐𝑜𝑢𝑛𝑡 𝑤,𝑐 +1 𝑐𝑜𝑢𝑛𝑡 𝑐 +|𝑉|
Multinomial Naive Bayes 𝑃 𝑤|𝑐 = 𝑐𝑜𝑢𝑛𝑡 𝑤,𝑐 +1 𝑐𝑜𝑢𝑛𝑡 𝑐 +|𝑉| P(w|c) : Peluang munculnya kata w dengan syarat muncul kategori c P(c) : Peluang kemunculan kategori c Count(w,c) : jumlah kata w pada kategori c Count (c) : jumlah seluruh kata pada kategori c |V| : jumlah kata-kata yang unik dalam seluruh dokumen
Multinomial Naive Bayes Nama Person (P) : Santika, Supriadi, Supriadi Nama Organisasi (O) : Santika, Santika, Merapi Nama Lokasi (L) : Merapi, Merapi, Bali, Supriadi D5 : Supriadi akan menginap di Hotel Santika P(P)=1/3, P(O)=1/3, P(L) = 1/3 P(Supriadi | P) = (2)+1/(3+4) = 3/7 P(Supriadi | O) = (0)+1/(3+4) = 1/7 P(Supriadi | L) = (1)+1/(4+4) = 2/8
Multinomial Naive Bayes Nama Person (P) : Santika, Supriadi, Supriadi Nama Organisasi (O) : Santika, Santika, Merapi Nama Lokasi (L) : Merapi, Merapi, Bali, Supriadi D5 : Supriadi akan menginap di Hotel Santika P(P)=1/3, P(O)=1/3, P(L) = 1/3 𝑷 𝑷|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑷 ∗𝑷(𝑷) 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟑/𝟕∗𝟏/𝟑 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟑/𝟐𝟏 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 𝑷 𝑶|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑶 ∗𝑷(𝑶) 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟏/𝟕∗𝟏/𝟑 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟏/𝟐𝟏 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 𝑷 𝑳|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑳 ∗𝑷(𝑳) 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟐/𝟖∗𝟏/𝟑 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟐/𝟐𝟒 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊
Multinomial Naive Bayes 𝑷 𝑷|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑷 ∗𝑷(𝑷) 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟑/𝟕∗𝟏/𝟑 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟑/𝟐𝟏 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 𝑷 𝑶|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑶 ∗𝑷(𝑶) 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟏/𝟕∗𝟏/𝟑 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟏/𝟐𝟏 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 𝑷 𝑳|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑳 ∗𝑷(𝑳) 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟐/𝟖∗𝟏/𝟑 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 = 𝟐/𝟐𝟒 𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 Terbukti bahwa P(Supriadi) tidak perlu dihitung untuk mencari kelas yang memiliki peluang terbesar. Sehingga cukup memakai rumus
Multinomial Naive Bayes 𝑷 𝑷|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 =𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑷 ∗𝑷 𝑷 = 𝟑 𝟕 ∗ 𝟏 𝟑 = 𝟑 𝟐𝟏 𝑷 𝑶|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 =𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑶 ∗𝑷 𝑶 = 𝟏 𝟕 ∗ 𝟏 𝟑 = 𝟏 𝟐𝟏 𝑷 𝑳|𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊 =𝑷 𝑺𝒖𝒑𝒓𝒊𝒂𝒅𝒊|𝑳 ∗𝑷 𝑳 = 𝟐 𝟖 ∗ 𝟏 𝟑 = 𝟐 𝟐𝟒 Karena kelas P memiliki peluang terbesar, maka Supriadi masuk ke Entitas Nama Person (P)
Multinomial Naive Bayes Nama Person (P) : Santika, Supriadi, Supriadi Nama Organisasi (O) : Santika, Santika, Merapi Nama Lokasi (L) : Merapi, Merapi, Bali, Supriadi D5 : Supriadi akan menginap di Hotel Santika P(akan | P) = (0)+1/(3+4) = 1/7 P(akan | O) = (0)+1/(3+4) = 1/7 P(akan | L) = (0)+1/(4+4) = 1/8
Multinomial Naive Bayes Nama Person (P) : Santika, Supriadi, Supriadi Nama Organisasi (O) : Santika, Santika, Merapi Nama Lokasi (L) : Merapi, Merapi, Bali, Supriadi D5 : Supriadi akan menginap di Hotel Santika P(P | akan) = P(akan | P) * P(P) = 1/7 *1/3 = 1/21 P(O | akan) = P(akan | O) * P(O) = 1/7 *1/3 = 1/21 P(L | akan) = P(akan | L) * P(L) = 1/8 *1/3 = 1/24 Maka kata akan masuk ke Entitas Person atau Organisasi
Multinomial Naive Bayes Nama Person (P) : Santika, Supriadi, Supriadi Nama Organisasi (O) : Santika, Santika, Merapi Nama Lokasi (L) : Merapi, Merapi, Bali, Supriadi D5 : Supriadi akan menginap di Hotel Santika P(Santika | P) = (1)+1/(3+4) = 2/7 P(Santika | O) = (2)+1/(3+4) = 3/7 P(Santika | L) = (0)+1/(4+4) = 1/8
Multinomial Naive Bayes Nama Person (P) : Santika, Supriadi, Supriadi Nama Organisasi (O) : Santika, Santika, Merapi Nama Lokasi (L) : Merapi, Merapi, Bali, Supriadi D5 : Supriadi akan menginap di Hotel Santika P(P | Santika) = P(Santika | P)*P(P) = 2/7 * 1/3 = 2/21 P(O | Santika) = P(Santika | O)*P(O) = 3/7 * 1/3 = 3/21 P(L | Santika) = P(Santika | L)*P(L) = 1/8 * 1/3 = 1/24 Maka Santika masuk ke Entitas Nama Organisasi (O)