Chrzy: Největším úskalím expanze do zahraničí nejsou objemy dat, ale něco, co by nás dřív ani nenapadlo

Martin Müller

Content Lead

July 21, 2022

This article is also available in English.

Sedli jsme si s naším CTO Michaelem Chrzanowskim zvaným Chrzy (přezdívka, na které si naši anglicky mluvící kolegové pravidelně lámou jazyk) a zeptali se ho, jak se naše datové oddělení vypořádává s expanzí do Itálie a Španělska, jak se datová analytika pojí s jazykem, k čemu vede neznalost lokálních výrazů a zkratek nebo jestli se bojí datové analýzy v řecké abecedě (spoiler: nadšený nebyl). Takže pokud vás zajímá pozadí naší expanze do Evropy nebo se chcete dozvědět něco víc o našem CTO, čtěte dále.

‍

SharpGrid expanduje v plné síle do Itálie a Španělska. V čem vidíš největší výzvy?

První krok je přechod z on-premise do cloudu a to hlavně z důvodu horizontálního škálování kvůli objemu informací, které musíme zpracovávat. Česká republika a Slovensko jsou z hlediska množství dat na deseti, patnácti procentech oproti Španělsku a Itálii. V podstatě se dostáváme do situace, že Českou republiku zpracováváme třeba pět dní a najednou máme něco objemově desetkrát většího.

Druhá věc je přechod z manuálního na automatický proces. Doteď jsme všechno spouštěli ručně, pomocí jednoduché kontejnerizace jsme spustili sběr dat a následně pomocí vzdáleného spouštění procedur na databázi jsme ručně orchestrovali proces až do dokončení. Aby to pochopil i laik - mělo to časové prodlevy a člověk se tomu musel věnovat, jinak proces neběžel a zdržoval se koncový výstup pro klienta.

U Market Meteru to takhle fungovalo ještě na začátku roku. Teď jsme udělali obrovský krok kupředu směrem k automatizaci a distribuci výpočtu. To znamená, že se tomu nemusí věnovat ten samý člověk a když se objem dat nafoukne desetkrát, tak na výsledek nebudeme čekat půl roku.

Třetí věc je, že hledáme informace v textu a čelíme lingvistické pestrosti. A to je nejen jazyk, ale i lokální zvyklosti. Třeba zapsat adresu je možné třemi nebo čtyřmi způsoby. Ale když neznám jazyk a psané zvyklosti dané země, tak to nerozluštím. Problém je třeba i způsob zkracování slov, který se musíme naučit.

‍

A dokážeme tohle naučit i naše systémy, abychom mohli automatizovat a nespoléhali tolik na lidský faktor?

Hledáme nějaká dobrá existující řešení, aby se nám uvolnily ruce, mohli jsme myslet víc dopředu a neřešit jen akutní potřeby. Existují postupy založené na machine learningu nebo AI, jen najít ten správný. Jde o to snížit pracnost a chybovost a zjednodušit aplikaci do jiných zemí. Třeba to, čemu já říkám bar, se překrývá s fast-foodem, diskotekou nebo hospodou, a navíc to může vypadat jinak v Česku, Polsku i Španělsku.

‍

Takže to není jen otázka jazyka…

Ne, míchá se tam i kultura a zvyky. Ale znalost jazyka je taky klíčová. Protože bez ní nejsem schopný číst ty informace, co mám před sebou a nejsem schopný ani odhadnout, co znamenají. Ani v Polštině, u které by si člověk řekl, že má k češtině blízko. Třeba nedávno jsem se dozvěděl, že piwnica je polsky sklep.

‍

Jak moc vlastně souvisí data s jazykem?

Pro nás hodně. Naivním způsobem můžeš hledat informaci v podobě shody v textu pomocí nějakého pořadí slov, jejich frekvence nebo zvyků a pravidel. Výhodou je, když je ten jazyk strukturálně usazený. Třeba kdybych vyměnil pořadí pár komponent větné stavby v české větě, tak bude pořád dávat nějakým způsobem původní smysl. V jiném jazyce by z toho třeba vyšel podivný nesmysl.

‍

‍

Vidíš to v případě Španělska a Itálie jako velkou překážku?

Problém to je u ověřování přesnosti dat, hlavně u delších textových řetězců. Zkoušels třeba někdy pochopit recenze ve španělštině? Tam ti ani Translator nepomůže. Těžko se to čte, neznám fráze a jestli jsem to pochopil správně si nejsem ani trochu jistý.

Z toho pramení dva problémy: pomalost a nejistota. Všechno ti trvá delší dobu a navíc nevíš, jestli to máš správně. A náš tým má v sobě vypěstovanou tendenci dělat věci přesně a odevzdávat co nejlepší práci tj. v našem případě co nejlepší datovou informaci. Čelíš špatně udržovaným informacím na primárních zdrojích, lingvistice a hledáš v tom něco, co bys dal do krabičky a někdo to koupil.

Příkladem je identifikace provozovny. Jak poznat, že je živá, existující a aktivní, jestli patří do nějakého řetězce, nebo je solitérní. Například porovnávání podle adresy je problematičtější. Ty můžeš mít nákupní středisko, kde bude hned několik restaurací. A všechny budou mít tím pádem stejnou adresu. Takže adresu jako vazbu přiřazení nemůžeš použít přímočaře.

Navíc spousta těch informací vzniká lidskou činností a nikdo je neověřuje. Nebo se stane, že bar zavře a na jeho místě se otevře nový, který se ale bude jmenovat stejně nebo skoro stejně, akorát bude mít jiného majitele. A to, že na Googlu svítí ještě dalšího půl roku špatná informace, protože se nikdo neobtěžoval ji updatovat, taky neovlivníš.

Je v tom spousta nejistoty. A tohle je důvod, proč každý neuspěje. Není to nic jednoduchého. Ale my to zvládneme.

‍

A co třeba jiná abeceda? Jaký problém by způsobila?

Pokud by další trh mělo být Řecko, tak fakt nevím. Řecko je lukrativní a zajímavé místo, kde by bylo dobrý on-trade prozkoumat, ale co si počneme s jejich abecedou, to fakt nevím. (smích) To bych snad musel mít vedle monitoru vytištěnou tabulku, co který znak znamená, a pak bych to podle toho četl.

‍

Neměli bychom se teda zaměřovat jenom na země s latinkou?

To by byla strašná škoda. Budeme akorát potřebovat podporu někoho, kdo ten jazyk zná. Stejně jako to teď máme ve Španělsku a Itálii, kde nám pomáhají naše kolegyně Elena García Vargas a Elisa Arietti, které se jinak starají o naše španělské a italské klienty. Jde o ten počáteční nápor, pak to vždycky přejde do nějaké stabilní fáze a rutiny.

‍

‍

Máme nějaký postup, jakým to řešíme?

Hodně používáme heuristiku. Převedeme informaci do čísel a ta čísla se snažíme nějak usadit - ověřit. A buď to dává smysl, nebo ne. V okamžiku, kdy má dojít k aproximaci, tak to čím dál tím víc vede k hledání podobnosti pomocí machine learningu. Ale ten potřebuje obrovské množství vstupů a testovacích dat, podle kterých se to naučí. Musíš dát dohromady dobrý trénovací vzorek, na kterém se to naučí správně. Je to celý obor: Data science. Těch možností je mnoho a máme v plánu se jim věnovat, abychom naše produkty vyladili k dokonalosti.

‍

Zakončíme v osobnější rovině: Jak ses vlastně dostal do SharpGridu a jak na tebe jako firma působí?

Kdybych se zeptal svých dlouholetých kolegů z předchozích zaměstnání, jak mě vnímají v pracovní rovině, tak by řekli, že občas bývám nesnesitelně arogantní a agresivní. Ale tady se mi to vůbec neděje! Všechno vždycky vyřešíme v klidu. Navíc jsme malý tým, pořád něco objevujeme a zkoumáme, sedíme u jednoho stolu a máme okamžitou zpětnou vazbu, na základě které můžeme projekty posouvat dál. Řekl bych to takhle: Nemusíme psát hesla na zdi, aby se věci děly. Prostě se dějou.

Zároveň mi vyhovuje i ta dravost, expanze na nové trhy a celková otevřenost firmy novým nápadům. Díky tomu dokážu využít i svoje zkušenosti ze sféry OLTP (online transactions processing), kde jsem působil předtím a která je o dost jiná svým zaměřením na rychlost a okamžité reakce spíše než na velké objemy dat.

‍Mám rád životaschopné projekty a zajímá mě, jak funguje svět. V tom je pro mě SharpGrid ideální. Našel jsem si tady spoustu krásných věcí, které bych chtěl vyřešit. Sám bych si otevřít byznys nedokázal. Seděl jsem 30 let za počítačem, takže by to asi nefungovalo (smích). Ale umožnit, aby věci fungovaly, to je pěkný. To je to, co mě baví.

Content