Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ik ben bereid om op deze heuvel te sterven:
De beste spraakmodellen zijn die met de beste nauwkeurigheid voor belangrijke entiteiten, niet diegene die optimaliseren voor WER (Word Error Rate).
De meeste spraak-naar-tekst aanbieders optimaliseren voor WER, maar in productieapplicaties is WER niet zo relevant.
95% van de woorden goed krijgen is nutteloos als je de naam van de klant, hun telefoonnummer of het straatadres dat ze net letter voor letter hebben gespeld mist.
Het team van Gladia heeft een zeer coole benchmark uitgevoerd:
• 1.000+ gesprekken in callcenters
• Veel achtergrondgeluid
• Focus op het extraheren van namen, telefoonnummers, adressen, locaties, enz.
Het Gladia-model presteerde tot 17% beter dan elk ander state-of-the-art model!
Dit zijn precies de gegevens die belangrijk zijn voor bedrijven die deze modellen gebruiken. Als je dit verkeerd krijgt, gaat alles downstream kapot.
Een paar andere dingen die het vermelden waard zijn:
• Latentie op gedeeltelijke resultaten: < 150ms
• 100+ ondersteunde talen
• Dynamische taaldetectie
• Totale WER van 5,97%
Zeker de moeite waard om te bekijken voor iedereen die spraakmodellen gebruikt:
Bedankt aan het Gladia-team voor de samenwerking aan deze post.
Boven
Positie
Favorieten
