Když se Google Street View dívá očima AI: Jak stroje učí číst naše ulice – StreetView

Proč mě to vlastně napadlo?

Včera jsem si na mobilu chtěl zkontrolovat, jestli na místě, kam jedu na schůzku, mají před domem ceduli se zákazem stání. Místo abych riskoval pokutu, pustil jsem Google Street View a projížděl ulici jako za starých časů. A najednou mi to došlo – tahle virtuální procházka není jen o tom, že si prohlížím fasády. Je to o tom, že se na ně dívá někdo úplně jiný. Umělá inteligence.

Trávím tímhle tématem poslední týdny. Ne proto, že bych byl programátor nebo datový vědec (jsem jen obyčejný kluk, co rád fotí a píše), ale protože mě fascinuje, jak se tenhle digitální svět mění před očima. Pojďme se na to podívat tak, jak to vidím já – od špíny na chodníku až po algoritmus, který ji rozpozná.

Jak se vlastně stroj učí koukat na ulici?

Když jsem poprvé slyšel o tom, že Google trénuje AI na datech ze Street View, představoval jsem si, že někdo sedí u počítače a ručně označuje každý semafor, každou poštovní schránku. No jasně, to by byl šílený úkol. Místo toho to funguje úplně jinak.

Stroje se učí na tisících, vlastně milionech, snímků. Každý obrázek projde sítí neuronů, která hledá vzory. Třeba auto: kulatý tvar, kola, odlesky skla, stín pod ním. Postupně se ta síť učí, že “auto” není jen shluk pixelů, ale specifická kombinace tvarů a barev.

Segmentace – AI si obraz rozdělí na kousky (obloha, chodník, fasáda, auto).
Detekce objektů – Pak hledá konkrétní věci: značky, lampy, lidi, zvířata.
Klasifikace – Nakonec rozhodne, jestli to, co vidí, je “dopravní značka Stop” nebo jen “červený flek na sloupu.”

Když to slyším, připadá mi to skoro jako učení batolete. Taky si nejdřív plete pejska s kočkou, dokud mu neukážete dost fotek. Jenže u AI je to o milionech pokusů za vteřinu.

Co všechno AI rozpozná? A co jí dělá problém?

Nedávno jsem si dělal takový malý experiment. Otevřel jsem Street View na několika místech v Praze a pak si zkusil tipovat, co všechno ten algoritmus vidí. A výsledek? Docela mě to překvapilo!

Funguje skvěle u:

Dopravních značek – Semafory, stopky, zákazy vjezdu. Tohle je pro AI pecka, protože mají jasné tvary a písma.
Vozidel – Auta, kola, skútry. Tady je to skoro dokonalé, i když třeba pickup s plachtou občas zmate.
Lidí – Chodci na přechodech, skupiny na zastávkách. AI je schopná odhadnout počet lidí i směr jejich chůze.
Budov – Fasády, vchody, okna. Dokonce i to, jestli je vchod nový nebo starý.

Ale pak jsou věci, které ji pletou:

Odlesky a sklo – Zrovna včera jsem koukal na jednu ulici, kde se slunce odráželo od auta. AI tu skvrnu vyhodnotila jako “bílou plochu” a ignorovala, že pod ní je vůz.
Nezvyklé objekty – Třeba pouliční umění, sochy nebo něco, co je “mimo škatulku”. Když jsem na snímku viděl obřího plyšového medvěda na zastávce, AI si nebyla jistá.
Počasí a stíny – Mlha, déšť, večerní šero. To jsou fakt výzvy. Algoritmus pak hádá, jestli to stín na zdi je člověk nebo jen strom.

Proč je to vlastně důležité?

Možná si říkáte: “No jo, ale k čemu mi to je, že AI pozná, že na rohu je zelený kontejner?” A já vám řeknu, že to má obrovský přesah. Třeba v navigaci. Když jedete do neznámého města, AI už dnes pozná, že před vámi je “přechod s retardérem” nebo “úzká ulice plná zaparkovaných aut”. A vy díky tomu nešlápnete na brzdu až v poslední vteřině.