Tôi sẵn sàng chết trên ngọn đồi này: Các mô hình giọng nói tốt nhất là những mô hình có độ chính xác tốt nhất với các thực thể chính, không phải những mô hình tối ưu hóa cho WER (Tỷ lệ lỗi từ). Hầu hết các nhà cung cấp chuyển đổi giọng nói thành văn bản tối ưu hóa cho WER, nhưng trong các ứng dụng sản xuất, WER không thực sự quan trọng. Việc có 95% từ chính xác là vô nghĩa nếu bạn bỏ lỡ tên của khách hàng, số điện thoại của họ, hoặc địa chỉ đường mà họ vừa đánh vần từng chữ một. Nhóm tại Gladia đã thực hiện một bài kiểm tra rất thú vị: • Hơn 1.000 cuộc hội thoại trung tâm cuộc gọi • Nhiều tiếng ồn nền • Tập trung vào việc trích xuất tên, số điện thoại, địa chỉ, vị trí, v.v. Mô hình Gladia đã vượt trội hơn mọi mô hình tiên tiến khác tới 17%! Đây chính xác là dữ liệu quan trọng đối với các công ty sử dụng những mô hình này. Nếu bạn làm sai điều này, mọi thứ phía sau sẽ bị hỏng. Một vài điều khác đáng đề cập: • Độ trễ trên các phần: < 150ms • Hỗ trợ hơn 100 ngôn ngữ • Phát hiện ngôn ngữ động • Tổng WER ở mức 5.97% Chắc chắn đáng để kiểm tra cho bất kỳ ai sử dụng các mô hình giọng nói: Cảm ơn đội ngũ Gladia đã hợp tác với tôi trong bài viết này.