AgriDoc Classification

Ringkasan Pipeline NLP

ICAR Agriculture DatasetDataset Pertanian

258+99 augmented

Dokumen Asli159

Kategori6

Fitur TF-IDF1000

Word EmbeddingsModel Representasi Vektor

4Model Diimplementasikan

W2V-CBOW

W2V-SG

GloVe

FastText

Klasifikasi TeksSVM + TF-IDF (Mitigated)

96.9%Accuracy

Precision96.0%

Recall98.0%

F1-Score97.0%

Distribusi Kategori Dataset

Akurasi Model Berdasarkan Split Ratio

Detail Model

Pipeline NLP

Data Collection159 dokumen ICAR

✓

PreprocessingTokenisasi, stopword removal, stemming

✓

Train-Test Split80:20 stratified sebelum augmentasi

✓

AugmentasiBack-translation 4 rute (EN/JP/CN/RU) → 258 training docs

✓

Feature ExtractionTF-IDF, BoW, n-gram

✓

Word EmbeddingW2V, GloVe, FastText, BERT (mBERT)

✓

ClassificationSVM, Decision Tree, Naive Bayes

Now

DeploymentModel inference API & Dashboard

...

Model Embedding

W2V-CBOW

100D · 324 docs

Menggunakan konteks sekitar untuk memprediksi kata target

W2V-SG

100D · 324 docs

Menggunakan kata target untuk memprediksi konteks sekitar

GloVe

100D · 324 docs

Memanfaatkan statistik global co-occurrence kata

FastText

100D · 324 docs

Memperhitungkan subword/n-gram untuk representasi vektor

Top 15 Fitur TF-IDF

#	FITUR	SKOR TF-IDF	RELEVANSI
#1	yield	0.04536	Tinggi
#2	farming	0.03670	Tinggi
#3	pradesh	0.03083	Tinggi
#4	days	0.03040	Sedang
#5	fruit	0.03022	Tinggi
#6	rice	0.02929	Tinggi
#7	varieties	0.02866	Tinggi
#8	cultivation	0.02549	Tinggi
#9	variety	0.02390	Sedang
#10	income	0.02211	Sedang
#11	wheat	0.02055	Tinggi
#12	millet	0.02048	Tinggi
#13	fruits	0.02001	Sedang
#14	leaf	0.01998	Sedang
#15	plants	0.01834	Sedang

Ringkasan Pipeline NLP

Distribusi Kategori Dataset

Akurasi Model Berdasarkan Split Ratio

Detail Model

Pipeline NLP

Model Embedding

Top 15 Fitur TF-IDF

Confusion Matrix: SVM + TF-IDF (97%)