Ringkasan Pipeline NLP

ICAR Agriculture DatasetDataset Pertanian
324+165 augmented
Dokumen Asli159
Kategori6
Fitur TF-IDF1000
Word EmbeddingsModel Representasi Vektor
4Model Diimplementasikan
W2V-CBOW
W2V-SG
GloVe
FastText
Klasifikasi TeksTF-IDF + SVM
84.7%Accuracy
Precision84.1%
Recall84.7%
F1-Score84.3%

Distribusi Kategori Dataset

Detail Model

Pipeline NLP

1
Data Collection159 dokumen ICAR
2
PreprocessingTokenisasi, stopword removal, stemming
3
AugmentationBack translation → 324 dokumen
4
Feature ExtractionTF-IDF, BoW, n-gram
5
Word EmbeddingW2V, GloVe, FastText
6
ClassificationSVM, Naive Bayes, dll
Now

Model Embedding

W2V-CBOW
100D · 324 docs
Menggunakan konteks sekitar untuk memprediksi kata target
W2V-SG
100D · 324 docs
Menggunakan kata target untuk memprediksi konteks sekitar
GloVe
100D · 324 docs
Memanfaatkan statistik global co-occurrence kata
FastText
100D · 324 docs
Memperhitungkan subword/n-gram untuk representasi vektor

Top 15 Fitur TF-IDF

#FITURSKOR TF-IDFRELEVANSI
#1
yield
0.04536
Tinggi
#2
farming
0.03670
Tinggi
#3
pradesh
0.03083
Tinggi
#4
days
0.03040
Sedang
#5
fruit
0.03022
Tinggi
#6
rice
0.02929
Tinggi
#7
varieties
0.02866
Tinggi
#8
cultivation
0.02549
Tinggi
#9
variety
0.02390
Sedang
#10
income
0.02211
Sedang
#11
wheat
0.02055
Tinggi
#12
millet
0.02048
Tinggi
#13
fruits
0.02001
Sedang
#14
leaf
0.01998
Sedang
#15
plants
0.01834
Sedang