Proyek membangun mesin pencari web dari nol dalam dua bulan menggunakan 3 miliar embedding neural.
Pipeline pemrosesan melibatkan normalisasi HTML, pemecahan teks per kalimat, dan pelacakan konteks pernyataan agar hasil pencarian akurat.
Infrastruktur meliputi 200 GPU untuk embedding, ratusan crawler yang mengindeks 50K halaman per detik hingga 280 juta halaman, serta RocksDB dan HNSW yang di-shard di ratusan inti CPU.
Sistem menggunakan layanan koordinasi Rust, mTLS dengan HTTP/2, dan penyimpanan berbasis RocksDB dengan BlobDB untuk kinerja tulis tinggi dan query low latency sekitar 500 ms.
Indeks vektor awal berbasis HNSW selanjutnya dikembangkan menjadi CoreNN, basis data vektor open source yang mendukung 3 miliar embedding dengan pembaruan dinamis.
Demo live tersedia di search.wilsonl.in dengan UI minimalis serta fitur AI untuk jawaban ringkas, percakapan, dan ringkasan hasil.
Optimasi biaya signifikan dengan memanfaatkan infra murah seperti Hetzner Auction, Oracle Cloud, Runpod, dan solusi open source yang menghemat puluhan kali lipat dibanding AWS.
Fokus kualitas pencarian mencakup strategi crawling efisien, normalisasi konten, filtering spam SEO, dan pengukuran klik untuk perbaikan ranking.
Rencana selanjutnya meliputi pengembangan dataset recall, analisis semantik besar-besaran, peningkatan crawler, dan optimasi embedding statis atau LLM reranking.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"