ai-dialervoice

AI dialeris, kuris rezervuoja susitikimus, o ne juos eikvoja

Kas skiria naudingą išeinantį AI agentą nuo varginančio - ir kodėl latencija, o ne LLM, yra tikroji kliūtis.

Codus Nullus

Pusė AI balso demonstracijų internete atrodo tapačiai: sintetinis balsas skaito poliruotą scenarijų, žmogus pritariančiai linksi, o virš to dedamas marketingo šūkis „AI agentai, sudarantys sandorius”. Realiame pokalbyje su tikru klientu tas poliruotas scenarijus subyra per trisdešimt sekundžių.

Toliau - kas liko po to, kai mūsų AI dialerį prijungėme prie realių klientų per tūkstančius skambučių.

Latencija - visas žaidimas

Jei AI atsako delsa viršija ~700 ms, skambutis jaučiasi sugedęs. Klientas pertraukia, AI sutrinka, klientas padeda ragelį. Latenciją reikia matuoti nuo galo iki galo:

  1. Garsas palieka kliento burną.
  2. Kalbos atpažinimas užfiksuoja sakinio pabaigą.
  3. LLM sukuria atsakymą.
  4. Kalbos sintezė pradeda generuoti pirmąjį fonemą.
  5. Tas fonemas pasiekia kliento ragelį.

Kiekvienas žingsnis kainuoja 50-200 ms, o trys iš jų priklauso nuo tinklo - vienas blogas pereinamasis taškas tyliai prideda ketvirtį sekundės. Didžioji mūsų infrastruktūros darbo dalis yra užtikrinti, kad nė vienas šių žingsnių neužstrigtų pakankamai ilgai, kad žmogus pajustų.

Scenarijai, kurie atsigauna

Geras išeinantis scenarijus turi tris sluoksnius:

Scenarijų verta traktuoti kaip kodą - su regresiniais testais, kurie atkuria įrašytus skambučius ir garsiai krenta, kai atsigavimo sluoksnis praleistas. Būtent tai daro dialerį patikimą. Mažiau - ne madingesnio LLM pasirinkimas.

Perdavimas - visada

Dialeris visada siūlo kelią žmogui. „Gal pageidautumėte, kad trumpam perduočiau pokalbį komandai?” - svarbiausias sakinys scenarijuje. Klientai, kurie jaučiasi įkalinti AI, nebeskambina, o vieno blogo pirmojo įspūdžio kaina visada didesnė nei vieno papildomo perdavimo.