Granite Docling oleh @IBM sedang tren #3 di @huggingface. Ini adalah model Gambar-Teks-ke-Teks multimodal yang dirancang untuk konversi dokumen yang efisien. Ini mempertahankan fitur inti Docling sambil mempertahankan integrasi tanpa batas dengan DoclingDocuments untuk memastikan kompatibilitas penuh. Ini dibangun di atas arsitektur IDEFICS3, tetapi memperkenalkan dua modifikasi utama: menggantikan encoder visi dengan siglip2-base-patch16-512 dan mengganti model bahasa dengan LLM Granite 165M. Cobalah demo Granite-Docling-258 kami hari ini. Lisensi: Apache 2.0 Granite-docling-258M sepenuhnya terintegrasi ke dalam alur Docling, membawa fitur yang ada sambil memperkenalkan sejumlah fitur baru yang kuat, termasuk: 🔢 Pengenalan Persamaan yang Ditingkatkan: Deteksi dan pemformatan rumus matematika yang lebih akurat 🧩 Mode Inferensi Fleksibel: Pilih antara inferensi halaman penuh, inferensi wilayah yang dipandu bbox 🧘 Stabilitas yang Ditingkatkan: Cenderung menghindari loop tak terbatas dengan lebih efektif 🧮 Persamaan Inline yang Disempurnakan: Pengenalan matematika sebaris yang lebih baik 🧾 QA Elemen Dokumen: Jawab pertanyaan tentang struktur dokumen seperti keberadaan dan urutan elemen dokumen 🌍 Dukungan Jepang, Arab, dan Cina (eksperimental) Halaman HF: Selamat @ArvindKrishna @BillHiggins & tim!