More

    Aki nagy adatokkal dolgozik: projektekről és eszközökről

    Going Out Monday Podcast – 2012. évi kiadás, 20217. február, 79 perc

    Meghívtuk a bigdata fejlesztőt a podcastra. De a beszélgetés során kiderült, hogy hősünk adatmérnök. És azt akartuk, hogy adatelemzőként említsük – ezek általában más srácok. De a mérnök továbbra is gyakran felelős azért, hogy ezt a „dátumot” elhelyezzék a tárban, és ezt adatkezelésnek hívják. Saját rendszergazdáikkal is rendelkeznek.

    Artyom Gogin Hadoop, Spark és Kafka kurzusokat oktat a GeekBrains bigdata elemzési osztályán, emellett bigdata fejlesztő a Sberbanknál. Artyomnak köszönhetően megértjük a különlegességeket és a felelősségeket, valamint azt is, hogy egyáltalán mit tanít.

    A 20. részt különböző platformokon hallgathatja meg:

    • alma
    • Google
    • Yandex
    • Castbox
    • Simplecast

    Ebben a bejegyzésben érdekes idézeteket gyűjtöttünk össze a számból.

    Aki nagy adatokkal dolgozik: projektekről és eszközökről

    A memóriáról a nagy adatokban

    – A Big Data-t bármely cég létrehozhatja, minden attól függ, hogy milyen gyakran gyűjtenek információkat. Ha másodpercenként egyszer akarunk információkat gyűjteni, akkor egy mennyiségű információt kapunk. De ha valamilyen naplót akarunk gyűjteni másodpercenként tízszer, azonnal tízszer több információt kapunk. Ezért csak az a kérdés, hogy milyen gyakran és milyen részletességgel gyűjtjük össze információinkat, az adatok mennyisége ettől függ.

    – Az információ mennyiségét nem csak a sorok száma méri, hanem a feldolgozásához szükséges erőforrások is. Nekem ez a dimenzió jobban tetszik. Szeretem az információkat gigabájt RAM-mal mérni, amelyek az információk feldolgozásához szükségesek. Mindenkinek van RAM a számítógépén, mindenki azt ábrázolja, hogy mennyi RAM van a számítógépén, és képes korrelálni a számítógép teljesítményét az ipari klaszterek és szerverek erejével. Láttam olyan ipari szervereket a Sberbankban, amelyek több száz terabájt RAM-ot tartalmaznak. Véleményem szerint ez meglehetősen beszédes összehasonlítás, ha eszébe jut, hogy mennyi RAM van a számítógépen, és kiszámolja, hogy a Sberbank szerver hányszor többet tud feldolgozni.

    – Ha egy táblázat keretein belül szeretnénk levonni néhány következtetést, például az összeg vagy az átlag kiszámításához, vagyis meglehetősen egyszerű számtani műveletek elvégzéséhez, akkor nem kell minden adatot a RAM-ba tenni. De ha egy függőséget akarunk azonosítani az adatokban, ha összehasonlítani akarjuk az adatokat egymással, akkor nagy valószínűséggel folyamatosan össze kell hasonlítanunk és be kell töltenünk a teljes adatmennyiséget a RAM-ba, és össze kell hasonlítanunk egymással.

    – Ezek a vasdarabok évről évre egyre olcsóbbak. Még egy konferencián is hallottam egy beszédet, ahol azt mondták, hogy most mi, fejlesztők megengedhetjük magunknak, hogy hibákat kövessünk el az algoritmusokban, és az adatok kiszámításához nem a legjobb algoritmusokat használjuk, mert mindez hardverrel megtérül. Olcsóbb, ha kétszer olyan erős hardvert vásárol, mint egy fejlesztőt, aki kétszer olyan jó algoritmust eredményez. De ugyanazon a konferencián azt ígérték, hogy hamarosan véget ér ez a korszak, és a mirigyek leállnak az állandó áreséssel.

    A nagy adatokban szereplő szakmákról

    – Sok szervezetben három vagy négy terület van: adatelemzők, adatmérnökök, adatkutatók és szerveradminisztrátorok. Ez a négy szakma nagyon szorosan együttműködik az adattárházban, és megosztják egymás között a feladatok körét.

    – Ha valaki adatelemző vagy adattudós szerepére jut, akkor azonnal el tudja képzelni, mit fog tenni. Az adatmérnök fejleszti a rendszeres adatfeldolgozást, hogy az egyszer kidolgozható legyen, ütemtervet készítsen és emberi közreműködés nélkül évekig elfelejthesse dolgozni. Ha valaki többet akar magával az adattal foglalkozni, megnézni, hogyan jönnek be az adatok, milyen információkat tartalmaznak a táblák, hogyan viszonyulnak egymáshoz az adatok, mekkora a függőség az adatokban, akkor választania kell a következők között: adatelemző és adatkutató.

    OLVASS TOVÁBB:  "Python Developer PRO" - tanfolyam tapasztalt szakemberek számára

    – Ha valaki matematikai jelentést akar keresni az adatokban, és a matematika szempontjából figyelembe kívánja venni az adatokat, akkor ez az út az adattudósokhoz. És ha valaki többet akar kommunikálni az emberekkel, többet megoldani az üzleti problémákat, segíteni a felhasználóknak eldönteni, hogy mely adatok hoznak egyik vagy másik hasznot, lehet-e ezen adatok alapján megérteni az ügyfelek elégedettségét, megérteni, mennyire jól teljesítenek az ügyfelek, mennyit a hitelekre az ügyfelek igényt tartanak – akkor jobb, ha az adatelemzés irányát választja a vállalkozással való interakcióhoz.

    OLVASS TOVÁBB:  Hogyan keresünk tanárokat a programozó egységhez

    „A nagy adatadminisztrátorok nem nagyon különböznek az összes többi rendszergazdától, ugyanazok az emberek, akik a Linuxszal dolgoznak. De most a Linux mellett mindenféle más tárolóval, adatbázissal és felügyeletet igénylő eszközzel rendelkeznek, amelyeket a big data érdekében élesítenek.

    Aki nagy adatokkal dolgozik: projektekről és eszközökről

    A nagyméretű adatok méretezéséről

    – A vertikális méretezhetőség azt mondja, hogy sok hardvert kell egy szerverbe tenni. Ha kétszer szeretnénk fejleszteni a szervert, akkor kétszer annyi hardvert kell csatlakoztatnunk. A vízszintes skálázhatóság pedig azt mondja nekünk, hogy egy második szervert kell felállítanunk ugyanazokkal az erőforrásokkal, és egy rendszerbe kell egyesítenünk. A nagy adatmennyiségeknél ez nagyon fontos, mivel drága lesz hardvert egy szerverbe tolni, mert egy szerver korlátozza a hardver csatlakoztatását. Továbbá előfordulhat, hogy egy szerver kikapcsol, és akkor nem tudunk mit kezdeni a rendszerünkkel, nem leszünk képesek segíteni rajta, helyreállítani, folytatni a munkát, ha az egyik számítógép egyszerűen kiégeti a vezetékeket.

    – Vannak olyan megoldások, amelyek lehetővé teszik teljes adatbázisok on-line telepítését. Vagyis egy teljes adatbázisunk lehet a RAM-ban, amely csak a RAM-ban él, anélkül, hogy egyáltalán hozzáférne a merevlemezhez. Ebben az esetben a RAM egy része eljuthat ezekre az alapokra, egyesek fenntarthatnak maguknak bizonyos erőforrásokat, nem engedve más erőforrásokat ebbe a RAM-ba.

    – Egyes folyamatok egyszerűen néhány terabájt RAM-ot igényelhetnek, és nem is használhatják, de másoknak sem adják meg. Vagyis a RAM egyszerűen tétlen lehet. De elfogadott, hogy a RAM mindig kikapcsolhat, és akkor minden adat elvész. Mivel senki sem mentes attól, hogy a szerverünk kikapcsol, az adatközpontban kikapcsol az áram, az útválasztó meghibásodik, és a hálózati interakciók nem jönnek oda. Ezért a RAM elvileg többnyire szabad marad, különösen a nagy adatmennyiségben. Nagy adatokban a történeti adatok és ezen adatok nagy mennyisége nagyon fontos. Valamilyen művelet végrehajtásához nagyon gyakran olyan adatokhoz kell hozzáférni, amelyeket egy évvel ezelőtt vagy akár több évvel ezelőtt töltöttek be, és határozottan nincs értelme tárolni őket a RAM-ban, vagy valahogy használni kell a RAM-ot az adatok egy részének tárolásához – mindenesetre az összes adat a merevlemezen lesz. Innen veszik ezeket az adatokat, és csak a számításhoz töltik be a RAM-ba, majd ismét törlik.

    OLVASS TOVÁBB:  Amit az IoT fejlesztőjének tudnia kell

    – Szinte bármilyen alkalmazásból rengeteg adatot kipréselhet. Ha ez egy bolt, akkor hatalmas mennyiségű adatot rögzíthetünk és generálhatunk a felhasználói kattintásokból. Hogyan görgettek az egérrel, melyik képre bököttek, melyik gomb fölött lebegtek stb. Minden felhasználó, amikor meglátogatja a webhelyet, sokat mozgatja az egeret a képernyőn. És minden mozgást tükrözhetünk az adatainkban. Kiderült, hogy még ha csak napi ezer látogatásunk is van a webhelyen, minden látogatás több száz kattintást jelenthet. Összességében azt tapasztaltuk, hogy napi több ezer ügyfél mellett is sok nyilvántartás áll rendelkezésünkre a webhely minden egyes egyedi ügyletéről. A kérdés csak az, hogy miként használhatjuk fel ezeket az adatokat, és milyen következtetéseket vonhatunk le ezekből. Sőt, ilyen következtetések, hogy aztán tovább javítsuk üzletünket és javítsuk eladásainkat, ha ez üzlet.

    A szakértők hibáiról a nagy adatokban

    – Az első dolog, amire figyelek, és ez egykor az én hibám volt: azt gondoltam, hogy ha ez működik, különösen a számítógépemen, különösen az adatbázisomban, akkor a termelésben is működni fog valós adatokon, rendszeres és különösen történelmi . A hibám az volt, hogy nincs annyi adat a számítógépemen, mint az ipari szervereken. És a helyi rendszer számomra szintén sokkal gördülékenyebben működik, mert egy, egy számítógépen van, és nem ezer számítógépen egyszerre, semmi nem zavarja, és senki sem próbálja folyamatosan kikapcsolni, senki sem küzd vele erőforrásokra. És az adatok olyan formában vannak, hogy jól tudom.

    – Az adatmérnökök fő feladata, hogy lehetővé tegyék a feladat elfelejtését és soha ne emlékezzenek rá. Vagyis, hogy rendszeresen és hibátlanul, emberi beavatkozás nélkül működjön. Éppen ezért az adatmérnököknek mindig van egy kísértés, hogy csak most vagy egy hétre előre működjenek, de akkor, ha elromlik, akkor már nem olyan fontos. Az adatmérnökök szeretnek egy feladatot gyorsabban elkészíteni, megszabadulni, bezárni, de nem gondolkodnak azon, hogy mi lesz hat hónap múlva, egy év múlva, amikor az adatok megváltozhatnak, mikor veszhetnek el az adatok, mikor kiszolgáló kikapcsolhat, és az adatokat vissza kell állítani. Ezért az adatmérnökök számára azt tanácsolom, hogy figyeljen arra a tényre, hogy olyan megoldásokat kell kifejlesztenünk, amelyek nem csak akkor működnek, amíg rájuk nézünk, és készek vagyunk valamit behúzni a kezünkkel: adatot továbbítani a kezünkkel, törölni valami feleslegeset . Úgy kell fejlődni, hogy az összes helyreállítást, a hibával kapcsolatos munkát automatikus módban is elvégeztük, így ha egy szerver leáll, ha az adatok megváltoznak vagy elvesznek, akkor legközelebb az alkalmazásunk indításakor a a szükséges adatok automatikusan megmaradnak, és a felesleges adatokat automatikusan törlik.

    OLVASS TOVÁBB:  "Elegem van a bányászatból - informatikához akartam menni"

    Érdekes? Kövesse a cikk elején található linkeket, hogy meghallgassa a teljes verziót és feliratkozhasson a podcast-frissítésekre;) Maradjon velünk, sok jó epizód vár még ránk!

    Friss cikkek

    Аутстаффинг в IT: что это и как устроиться работать на аутстаффинг

    Аутстаффинг становится все более распространенной практикой в IT-сфере, «отжимая» популярность и клиентов у аутсорсинга. По мнению экспертов, в ближайшее время эта тенденция сохранится, и...

    NaZapad 16: как попасть в ТОП в бурже, не имея бюджета и опыта

    На практической конференции по продвижению на западных рынках NaZapad 16 Илья Гринько рассказал о том, как создал свой проект в бурже и попробовал его...

    BI-системы: что это и зачем они нужны бизнесу

    Вникаем в основы бизнес-аналитики04 марта 20216 минут66https://d2xzmw6cctk25h.cloudfront.net/post/2564/og_image/0de7185dc6e58fe6f536564315226e43.png Статья подготовлена экспертами факультета BI-аналитики GeekBrains. На международных рынках компании-гиганты работают с миллионами, десятками, а кто-то — и с...

    Kapcsolódó történetek

    HOZZÁSZÓLOK A CIKKHEZ

    Kérjük, írja be véleményét!
    írja be ide nevét

    Maradjon op - Ge a napi híreket a postaládájában