Codus Nullus
Pusė DI (AI) balso demonstracijų internete atrodo tapačiai: sintetinis balsas skaito poliruotą scenarijų, žmogus pritariančiai linksi, o virš to dedamas marketingo šūkis „DI agentai, sudarantys sandorius”. Realiame pokalbyje su tikru klientu tas poliruotas scenarijus subyra per trisdešimt sekundžių.
Toliau - kas liko po to, kai mūsų AI skambintuvą prijungėme prie realių klientų per tūkstančius skambučių.
Latencija - visas žaidimas
Jei AI atsako delsa viršija ~700 ms, skambutis jaučiasi sugedęs. Klientas pertraukia, AI sutrinka, klientas padeda ragelį. Delsą reikia matuoti nuo galo iki galo:
- Garsas palieka kliento burną.
- Kalbos atpažinimas užfiksuoja sakinio pabaigą.
- LLM sukuria atsakymą.
- Kalbos sintezė pradeda generuoti pirmąją fonemą.
- Ta fonema pasiekia kliento ragelį.
Kiekvienas žingsnis kainuoja 50-200 ms, o trys iš jų priklauso nuo tinklo - vienas blogas pereinamasis taškas tyliai prideda ketvirtį sekundės. Didžioji mūsų infrastruktūros darbo dalis yra užtikrinti, kad nė vienas šių žingsnių neužstrigtų pakankamai ilgai, kad žmogus pajustų.
Scenarijai, kurie atsigauna
Geras išeinantis scenarijus turi tris sluoksnius:
- Tikslas: vienas rezultatas, dėl kurio skambutis vyksta (rezervuoti 20 min susitikimą).
- Šakos: 4-6 labiausiai tikėtini pokalbio keliai.
- Atsigavimas: aiškūs grakštūs išėjimai, kai DI nesupranta.
Scenarijų verta traktuoti kaip kodą - su regresiniais testais, kurie atkuria įrašytus skambučius ir garsiai krenta, kai atsigavimo sluoksnis praleistas. Būtent tai daro dialerį patikimą - ne madingesnio LLM pasirinkimas.
Perdavimas - visada
Skambintuvas visada siūlo kelią žmogui. „Gal pageidautumėte, kad trumpam perduočiau pokalbį komandai?” - svarbiausias sakinys scenarijuje. Klientai, kurie jaučiasi įkalinti DI, nebeskambina, o vieno blogo pirmojo įspūdžio kaina visada didesnė nei vieno papildomo perdavimo.