2026 m. kovo 15 d.

DI (AI) skambintuvas, kuris rezervuoja susitikimus, o ne juos eikvoja

Kas skiria naudingą išeinantį DI agentą nuo varginančio - ir kodėl latencija, o ne LLM, yra tikroji kliūtis.

ai-dialervoice

Codus Nullus

Pusė DI (AI) balso demonstracijų internete atrodo tapačiai: sintetinis balsas skaito poliruotą scenarijų, žmogus pritariančiai linksi, o virš to dedamas marketingo šūkis „DI agentai, sudarantys sandorius”. Realiame pokalbyje su tikru klientu tas poliruotas scenarijus subyra per trisdešimt sekundžių.

Toliau - kas liko po to, kai mūsų AI skambintuvą prijungėme prie realių klientų per tūkstančius skambučių.

Latencija - visas žaidimas

Jei AI atsako delsa viršija ~700 ms, skambutis jaučiasi sugedęs. Klientas pertraukia, AI sutrinka, klientas padeda ragelį. Delsą reikia matuoti nuo galo iki galo:

  1. Garsas palieka kliento burną.
  2. Kalbos atpažinimas užfiksuoja sakinio pabaigą.
  3. LLM sukuria atsakymą.
  4. Kalbos sintezė pradeda generuoti pirmąją fonemą.
  5. Ta fonema pasiekia kliento ragelį.

Kiekvienas žingsnis kainuoja 50-200 ms, o trys iš jų priklauso nuo tinklo - vienas blogas pereinamasis taškas tyliai prideda ketvirtį sekundės. Didžioji mūsų infrastruktūros darbo dalis yra užtikrinti, kad nė vienas šių žingsnių neužstrigtų pakankamai ilgai, kad žmogus pajustų.

Scenarijai, kurie atsigauna

Geras išeinantis scenarijus turi tris sluoksnius:

Scenarijų verta traktuoti kaip kodą - su regresiniais testais, kurie atkuria įrašytus skambučius ir garsiai krenta, kai atsigavimo sluoksnis praleistas. Būtent tai daro dialerį patikimą - ne madingesnio LLM pasirinkimas.

Perdavimas - visada

Skambintuvas visada siūlo kelią žmogui. „Gal pageidautumėte, kad trumpam perduočiau pokalbį komandai?” - svarbiausias sakinys scenarijuje. Klientai, kurie jaučiasi įkalinti DI, nebeskambina, o vieno blogo pirmojo įspūdžio kaina visada didesnė nei vieno papildomo perdavimo.