Röst – Den 3e digitala revolutionen (del 1)

John Ekman

Det absolut mest hajpade och stekheta just nu måste väl ändå vara AI? Om något är en ny digital revolution så är det väl ändå AI eller? Fortsätt att läsa så kanske du liksom jag kommer fram till uppfattningen att AI är överhajpat och röstgränssnitt underhajpat.

Men för att förstå grunden i mitt resonemang måste vi backa bandet några år – Låt oss resa tillbaka till 70-talet.

Internet föds

På 70-talet lades grunden till dagens internet då Arpanet och TCP/IP-protokollet lanserades. Och ni som kommer ihåg hur det var: Folk var som galna! De gick man ur huset och kutade runt som galningar på stan och kunde bara inte få nog med Arpanet. -”Var är mitt TCP/IP?!” stod folk på gatan och skrek och slogs om lådorna inne på elektronikhandeln.

Och ännu värre blev det sedan på 80-talet när World Wide Web lanserades. Jag minns att jag bodde i Boden och ringde till min mamma. Hon svarade –”Herregud! Sa du World Wide Web? Jag som står här vid älggrytan, vart är du? Jag stänger av och kommer direkt!” Eller så var det inte alls det som hände.

Det hände typ ingenting.

John på 80-talet. Ännu lyckligt ovetandes om Internet och någon som helst digital revolution.

Men så 1993 kom Mosaic som skulle bli Netscape och för första gången så fick vi ett användbart gränssnitt till den underliggande teknologin. Internet hade legat och slumrat i 20 år innan ett vettigt gränssnitt väckte upp det och vi fick den första digitala revolutionen.

Internet slumrade i 20 år innan Mosaic väckte upp det och startade den första digitala revolutionen.

År 2000 kom sedan den mobila revolutionen. Och det var samma visa igen: Folk klättrade på varandra i affären och till slut fick polisen kallas in. –”Jag måste få mobil data? Var är min mobil data? Ta hit den, jag såg den först”!

Eller. Typ nej.

Men så 2007 kom den första iPhonen och nu fick vi ett vettigt gränssnitt för den nya mobila tekniken för första gången och så skedde den andra digitala revolutionen – Den mobila revolutionen.

Det är när vi får vettiga gränssnitt till tekniken som revolutionen ute hos konsumenterna sker.

Kanske fattar du galoppen nu? Min poäng är att teknik i sig skapar inte revolution. Det är när vi får vettiga gränssnitt till tekniken som revolutionen ute hos konsumenterna sker. Och nu kommer den tredje digitala revolutionen när våra gränssnitt mot teknologin ändras för den tredje gången.

Iphone – världens mest innovativa grej någonsin?

Om vi zoomar in lite grann på iPhonen så tänker ju rätt många att det var en kreativ högpunkt i Steve Jobs karriär. En fantastisk uppfinning som alla plötsligt måste ha.

När man tittar lite närmare på vad som fanns i iPhonen så inser man att själva prylen eller paketeringen av den egentligen var en ganska liten del.

Det geniala med iPhone var att Apple lyckats sammanfoga en massa teknologier och lösningar som kom tillsammans vid en speciell tidpunkt i historien.

Det var såklart designen av telefonen och gränssnittet. Men det var även avtalet med AT&T som garanterade bandbredd. Det var också att man hade tillräckligt processorkapacitet att köra den avancerade grafiken. Att man hade touchscreen som för första gången fungerade tillräckligt bra. Att man la till appstore som gjorde att man skapade ett ekosystem kring innehållet. Och sist men kanske inte minst att man la in iPod, iTunes och all musik, något som användarna redan var vana vid att se i en produkt från Apple. Egentligen inte så mycket innovation utan snarare en syntes av en massa lösningar som faktiskt redan fanns på plats.

Jag tar upp det här nu för jag tror att det är precis samma sak som håller på att hända med röstgränssnitt.

Vad är då röstgränssnitt?

Ofta så tänker vi på home speakers, kanske särskilt nu när Google home lanseras stort i Sverige.
När man pratar om marknaden för rösttjänster så nämner man ofta att Amazon och Alexa har två tredjedelar av marknaden i USA.

Men det är marknaden för intelligenta home speakers. Inte samma sak som marknaden för alla röst-applikationer och jag tycker att det är lite viktigt att man håller isär de här sakerna.

Hemmahögtalare är bara en av de olika devices där vi kommer att få se röstgränssnitt.

Ett röstgränssnitt kräver i princip en liten mikrofon, ett chip som kan processa den inkommande signalen, en internetuppkoppling som kan skicka signalen till en AI/röst-server i molnet som tolkar talet och sedan skicka tillbaka resultatet till någon slags output. Ofta kan det vara i form av röst eller meddelanden på skärm till användaren. Men det kan också vara att bilen låses upp, vindrutetorkarna går igång eller att en lampa tänds.

Och när vi tänker på devices som kan styras med röst så finns det redan typ en miljard mobiltelefoner där Siri och Google Assistant och deras kompisar fungerar redan idag.

Voice interfaces – The Perfect storm?

Precis som iPhone var en genial kombination av existerande teknologier så ser vi ännu en gång att ett antal teknologier och lösningar kommer tillsammans vid en bestämd tidpunkt.

1. Internet of Things

Det första är IoT som vi ju pratat om i femton år men fortfarande har vi inte sett så väldigt mycket hända. Min tanke är att det beror på att vi inte har haft något vettigt gränssnitt för att styra alla våra uppkopplade prylar. Hur kan vi swipa på våra skor? Hur kan vi scrolla på vår ugn?

Men nu när röststyrning kommer kan vi för första gången faktiskt interagera enkelt med alla våra grejer.

2. AI

Jag började det här inlägget med att dissa AI lite grann men man måste ju också inse att det är kraften i utvecklingen av AI som driver röstgränssnitten – behind the scenes.

3. Wearables

Google glasses sjönk ju som en sten. Eller? Känner du till att Google glasses nu gör en comeback som ett verktyg för professionella? De är utmärkta för de som måste jobba med sina händer och samtidigt behöver se kartor, ritningar och sådana saker.

De smarta klockorna blir också allt fler och de allra flesta av dem kommer inom en mycket snar framtid att kunna styras via rösten.

4. Bandbredd

När vi ska prata med alla de här röstservrarna i molnet kommer det krävas snabb uppkoppling och det finns redan och blir ännu bättre med 5G.’

Titta! Nu har vi alla bitar som krävs för den tredje digitala revolutionen.

På riktigt John, det här suger ju!

Nu misstänker jag att du sitter och skruvar på dig och tänker att nu har John totalt tappat greppet om verkligheten. Att snacka med Siri eller Google Assistant eller vad det nu kallas, är ju typ en riktigt jäkla usel användarupplevelse. Och pinsamt är det också. Inte skulle man väl gå omkring och prata vitt och brett omkring sig bland andra människor?

John försöker ringa sin dotter som har det för Siri obegripliga icke-namnet ”Saga”.

Okej, låt oss kolla på de två argumenten:

Det stämmer mycket riktigt att dagens röstassistenter lämnar mycket i övrigt att önska. Fast jag försöker se bortom det.

Amazon har 10.000 utvecklare som är dedikerade till att knäcka hela nöten kring Alexa.

Google kör TV-reklam till konsument i Sverige för första gången.

Google Home tapetserar Östermalmstorgs station

Jag tänker att om dessa giganter satsar så mycket på det här så kommer det till slut att hända. Och när det gör det då kommer jag att vara redo.

Min tanke är att problemet med den nuvarande versionen av teknologin skymmer sikten för oss. Det gör att vi inte klarar av att se hur det skulle vara när teknologin faktiskt fungerar som den ska?!

De nuvarande begränsningarna i en teknologi hindrar oss från att se hur det skulle kunna bli när det faktiskt funkar.

Det andra argumentet är att vi aldrig skulle hålla på att prata med våra grejer därför att det verkar helt galet att prata rakt ut när man är bland andra människor. Det blir helt enkelt socialt oacceptabelt.

Men det finns massor av historiskt socialt oacceptabla saker som plötsligt har blivit helt acceptabla. T. ex. att gå runt och prata för sig själv i ett headset på telefonen eller att ständigt gå eller sitta och titta ner i sin telefon i kollektivtrafiken.

För 15-20 år sedan hade det varit helt spejsat och konstigt, men nu är det så vanligt att vi inte ens tänker på att det händer. Vad som är socialt acceptabelt förändras över tid.

Ok – Håller du med mig nu?

Ja, det behöver du ju inte göra. Men om du gör det kommer det bli mycket intressantare med nästa bloggpost.

Den ska handla om två saker:

  1. I vilka situationer/miljöer kommer röst att vinna?
  2. Hur kommer jag igång med mitt rösprojekt?

(By the way – jag ”skrev” hela den här bloggposten med röstinmatning på min telefon).

Läs även

Conversionista is open for business in The Netherlands.
Conversionista is open for business in The Netherlands. Read more.