More

    Hogyan kell dolgozni az adatokkal a Mediascope-ban

    A platformról, architektúráról, szerepekről és folyamatokról-a GeekBrains03 20217. március минут9616https://d2xzmw6cctk25h.cloudfront.net/post/2560/og_image/6171de444f52ddd35019ada07975d734.png

    December végén közös találkozót tartottunk a Mediascope-tal a GeekBrains-nél. A Mediascope a médiakutatás, a reklám és a médiafigyelés orosz piacának vezetője. Ez egy olyan vállalat, amely hatalmas mennyiségű információt dolgoz fel. Beszédében a big data munka igazgatójaVaszilij Kuzmin elmondta, hogy ez a munka jelenleg a Mediascope-ban szerveződik. A beszéd szöveges változata ebben a cikkben található.

    Koncepció 

    Amikor a Mediascope-ra kerültem, az volt a feladatunk, hogy olyan adatfeldolgozó platformot fejlesszünk ki, amely magasabb követelményeknek felel meg, mint a régebbi rendszerek.

    A Mediascope különböző forrásokból gyűjt adatokat: több tucat van belőlük, heterogének az információk mennyisége és minősége szempontjából. Az egyiknek naponta több millió rekordja van, a másiknak pedig félévente vannak adatai. Az adatok mind a vállalaton belüli forrásokból, mind pedig a Mediascope által a válaszadóknak forgalmazott eszközökből származnak. Ezeket a partnerek is biztosítják-nagy reklámok, internetes gazdaságok, média. Gyakran mind az elemzéseink, mind a nyers adatok szállítói.

    A régi megoldás az alagút elvére épült: minden forráshoz külön csatornát hoztak létre saját rendszerekkel. Az új platformnak két problémát kellett megoldania:

    • Tegye elérhetővé a multimédiás elemzéseket. Ez ma a médiapiac egyik legsürgetőbb és egyben legnehezebb feladata. Például annak kiszámításához, hogy hányszor látott egy személy egy adott hirdetést a tévében, a telefonján vagy a számítógépén, nem csak különböző forrásokból származó információkat kell beszereznie, hanem mindezt egyetlen egészbe kell gyűjtenie.
    • Munka nagy mennyiségű adatot. A médiapiacon az információ mennyisége egyes becslések szerint nagyságrenddel, mások szerint pedig kettővel nőtt. Az adatok mennyisége nem csak nőtt, hanem folyamatosan növekszik.

    Az új platformot klasszikus módon terveztük meg-nemcsak a tapasztalataimat, hanem általában a piacon elérhető legjobb megközelítéseket is felhasználva. Nem mintha ezek forradalmi megoldások lennének — éppen ellenkezőleg, mindent megpróbálnak, tesztelnek, meglehetősen konzervatívak. Úgy írnám le, mint “felső mínusz egy”. A Big data viszonylag fiatal iparág. A csúcskategóriás megközelítések még mindig túl frissek, ezért megbízhatatlanok. Rendkívül nagy megbízhatóságú platformot kellett építenünk. Ezért olyan bevált technológiákat használtunk, amelyek mindazonáltal a csúcson vannak.

    OLVASS TOVÁBB:  A gépi tanulás a GeekBrains frissített szakmája

    Készítettünk egy skálázható platformot, és összeállítottunk egy belépési pontot. Az általános koncepció megegyezik a sikeres projektek 70% – ával. Az építészet kanonikus megközelítésén alapul. Ha megnézzük, hogyan hajtják végre ezt a nagyvállalatokban, nagy valószínűséggel valami hasonló lesz. Először is, mert ugyanazok az építészek cégről cégre utaznak. Másodszor, mert tényleg működik.

    OLVASS TOVÁBB:  C # Fejlesztés - Új Geekegyetemi Kar

    Ezért koncepciónk meglehetősen univerzális.

    Как организована работа с данными в Mediascope

    Adatszolgáltatók

    Mindig vannak adatszolgáltatók – saját forrásaink és harmadik fél forrásaink. Alaposabban ellenőrizhetjük saját adatainkat, ha látjuk, hogy az adatok rossz minőségűek. És elfogadjuk a külső forrásokból származó információkat, ahogy van. Ezért fontos, hogy különböző minőségű adatokkal dolgozhassunk. 

    Adatbeviteli csatornák

    Az Apache NiFi-t használjuk, az adatfolyam-orchestratort, amely felelős azért, hogy az egyes rendszereket a megfelelő időben húzza ki, adatokat szerezzen belőle, majd a platformunk bejáratához helyezze. A Kafkát a nifi és a platform közötti szállításként használják.

    Nagy Adatplatform

    Maga a platform egy Hadoop klaszter. Most körülbelül 50 adatcsomópont van, de már ki kell bővíteni. Most ezzel a klaszterrel költöztünk a felhőbe-egyébként a SberCloud-ot használjuk. Több réteg van itt. Kanonikusak nemcsak a Hadoop, hanem az adatok klasszikus megközelítése szempontjából is.

    • Elsődleges adatok információ, ahogy van, de már csökkent a formátum. A parketta fájlformátumot használjuk.
    • Integrált adatok ez az a pont, ahol az összes információt egyetlen formába hoztuk, megjelöltük az azonosítóinkkal, és összekapcsoltuk. Ettől a ponttól kezdve az adatokról az egyik rendszerről a másikra léphet.
    •  Analitikai adatok a számítások eredményei, olyan adatok bemutatása, amelyek bármilyen származékot vagy származékot tartalmaznak-másképp nevezik őket. Fontos, hogy nem feltétlenül az aggregátumokról beszélünk, hanem részletes nyilvántartások is lehetnek.
    OLVASS TOVÁBB:  A GeekBrains első online érettségi: AI Kar

    Az elsődleges adatokhoz csak programozók és adatmérnökök férhetnek hozzá. Ez egy olyan technikai szint, amelyet még a belső felhasználók számára sem mutatunk meg. Ügyfeleink hozzáférhetnek a másik két szinthez, bár korlátozásokkal. De fontos, hogy API-Junk integrált adatréteggel kezdődjön. Kezdetben úgy építettük fel a szerkezetet, hogy ezek a szintek ne szégyelljék Megmutatni valakit.

    Analitikai alkalmazások

    Ezek olyan programok, szolgáltatások és szolgáltatások, amelyek adatokat használnak és tesznek vele valamit. Hagyományosan három fő csoportra oszthatók:

    • Jelentések, feltöltés, közzététel.
    • BI-analytics. Itt használjuk ClickHouse mint analitikai adatbázis. A gyors lekérdezéseket ott hajtják végre, a storefrontokat pedig ott másolják, hogy gyorsan visszaadhassák az adatokat.
    • Kutatás, modellezés. Ez az a pont, amelyen keresztül az adatokat az adattudósok megtekintik. Belső és külső szakembereink vannak. Az utóbbiak ügyfeleink alkalmazottai, akik emellett feltölthetik információikat.

    Adatfogyasztók

    Ezek olyan alkalmazások, amelyek nem látják közvetlenül a platformot, hanem az analitikai alkalmazások prizmáján keresztül néznek rá.

    Építészet

    Ha megnézzük a platformot az építészet szempontjából, úgy néz ki, mint ez. Ez egy kép egy évvel ezelőtt. Ami most van, már nem fér el a csúszdán. Így valósul meg az általam leírt koncepció.

    OLVASS TOVÁBB:  Hogyan lehet pénzt keresni az Android-alkalmazásokban a Play piacon

    Как организована работа с данными в Mediascope

    A figyelemre méltó itt:

    • Könyvtárkezelő rendszer. Külön hajtottuk végre.
    • Panel menedzsment rendszerek. A panelek ügyfeleink és válaszadóink.
    • Elsődleges adatok,

    Friss cikkek

    Kapcsolódó történetek

    HOZZÁSZÓLOK A CIKKHEZ

    Kérjük, írja be véleményét!
    írja be ide nevét

    Maradjon op - Ge a napi híreket a postaládájában