この点では命をかける覚悟があります: 最良のボイスモデルとは、WER(ワードエラー率)を最適化したものではなく、キーエンティティに対して最も正確なモデルです。 ほとんどの音声入力プロバイダーはWERを最適化していますが、本番環境ではWERはあまり重要ではありません。 95%の単語を正しく読んでも、顧客の名前や電話番号、あるいは彼らが一文字ずつ綴った住所を見逃すと意味がありません。 Gladiaのチームはとてもクールなベンチマークを実行しました: • 1,000+件のコールセンター通話 ・多くの背景雑音 ・名前、電話番号、住所、場所などの抽出に重点を置くこと。 グラディアモデルは、他の最先端モデルすべてを最大17%も上回る性能を発揮しました! これこそが、これらのモデルを使う企業にとって重要なデータです。これを間違えれば、下流のすべてが壊れてしまいます。 他にもいくつか言及すべきことがあります: ・部分遅延:< 150ms • 100+言語対応 ・動的言語検出 • 全体のWER 5.97% ボイスモデルを使っている人ならぜひ確認してみる価値があります: この投稿のために協力してくれたGladiaチームに感謝します。