Text Mining .
Definisi Text Mining Text Mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.
Menurut kajian dari Merrill Lynch dan gartner, 85 hingga 90 persen dari semua data korporat diambil dan disipan dalam bentuk data tak terstruktur (McKnight, 2005). Dituliskan bahwa data takterstruktur ini selalu menjadi dua kali lipat dalam hal size setiap 18 bulansekali.
Karena knowledge adalah power dalam dunia bisnis saat ini, dan knowledge diturunkan dari data dan informasi, organisasi bisnis yang bisa secar efektif dan efisien masuk ke beragam sumber data teks mereka akan memiliki knowledge yang diperlukan untuk membuat keputusan yang lebiih baik, yang membawa ke keuntungan kompetitif. Inilah yang mengakibatkan kebutuhan terhadap text mining cocok dengan gambaran besar bisnis hari ini.
Text mining (juga disebut dengan text data mining, atau knowledge discovery in textual database) adalah proses semi-otomatis dalam mengekstrak berbagai pola data (informasi dan database yang bermanfaat) dari sumber data tak-terstruktur.
Bidang penerapan text mining yang paling popular Information extraction (ekstraksi informasi). Identifikasi terhadap hubungan dan frase-frase kunci dalam text dengan mencari urutan yang sudah ditetapkan dalam text menggunakan pencocokan pola. Topic tracking (pelacakan topic). Berdasarkan pada profil user dan berbagai dokumen yang dilihat user, text mining bisa memprediksi dokumen-dokumen lain yang menjadi perhatian/minat user tersebut.
Summarization (peringkasan) Summarization (peringkasan). Meringkas suatu dokumen untuk menghemat waktu dari sis si pembaca. Clustering. Mengelompokkan dokumen-dokumen yang mirip tanpa memiliki kategori yang sudah ditetapkan sebelumnya.
Concept linking. Menghubungkan berbagai dokumen terkait dengan mengidentifikasi konsep yang digunakan berbsama dan dengan demikian membantu para user untuk menemukan informasi yang barangkali mereka tidak akan temukan dengan menggunakan metode-metode pencarian tradisional. Question answering. Menemukan jawaban terbaik pada pertanyaan yang diberikan melalui pencocokan pola berbasis knowledge
Penerapan-penerapan Text Mining Penerapan Bidang Marketing Coussement dan Van den Poel (peneliti text mining) telah berhasil menerapkan text mining untuk meningkatkan secara signifikan kemampuan suatu model (text mining) untuk memprediksi loyalitas pelanggan (mislanya, pelanggan yang mau pindah ke kompetitor) sehingga pelanggan yang cenderung pindah ke kompetiror bisa diidentifikasi dengan akurat untuk menyiapkan berbagai taktik retensi.
Penerapan Bidang Keamanan Salah satu penerapan text mining yang terbesar dan paling terkenal dalam bidang keamanan barangkali adalah system pengawasan ECHELON yang sangat rahasia. Seperti rumornya, ECHELON dianggap mampu mengidentifikasi isi panggilan telepon, faks, email, dan jenis-jenis data lainnya, dengan mengambil informasi di tengah yang dikirim lewat satelit, jaringan telepon public, dan link microwave.
Penerapan text mining terkait bidang keamanan lainnya adalah bidang deteksi kebohongan. Dengan menerapkan text mining ke banyak data tentang pernyataan penjahat di dunia nyata, Fuller (peneliti text mining) telah mengembangkan model prediksi untuk membedakan pernyataan yang bohong dengan yang jujur.
Penerapa Bidang Akademik Isu tentang text mining merupakan hal yang sangat penting bagi para penerbit yang memiliki banyak database yang sangat besar tentang informasi yang memerlukan ‘indexing’ untuk pencarian informasi yang lebih baik. Hal ini memang betul dalam bidan ilmu pengetahuan, dimana informasi yang sangat khusus seringkali berada di dalam tulisan teks.
Berbagai Software Text Mining Software komersial ClearForest, IBM Intelligent Miner Data Mining Suite, Megaputer Text Analyst, SAS Text Miner, SPSS Text Mining for Clementine, The Statistica Text Mining , VantagePoint, The WordStat (analysis module dari Provalis Research) menganilsa informasi teks seperti berbagai response atau jawaban yang berasal dari berbagai pertanyaan terbuka, interview, dll.
Software Free GATE adalah piranti (toolkit) open source yang paling unggul untuk text mining. LingPipe adalah paket libari dari Java untuk analisa linguistic dari bahasa manusia S-EM (Spy-EM) adalah system klasifikasi teks yang belajar dari sampel-sampel yang positif dan tak-berlabel. Vivisimo/Clusty adalah mesin pencari web dan clustering teks
selesai