Going Out Monday Podcast – 1825. szám, 20212. január, 14https: //d2xzmw6cctk25h.cloudfront.net/post/2518/og_image/1df4e9bbab82106f91147ea1ef452d26.png
NLP. Lehet, hogy látta ezt a rövidítést a pick-up készségről vagy valamilyen neuromarketingről szóló szövegekben. De a podcast ebben az epizódjában egy másik NLP-ről fogunk beszélni, ahol az emberek nincsenek beprogramozva, hanem éppen ellenkezőleg – olyan rendszereket hoznak létre, amelyek képesek megérteni az emberi kéréseket egy közös nyelven, és szükség szerint reagálni rájuk.
Ebben segít Roman Zakharov , a GeekBrains Természetes Nyelv Feldolgozó Karának (NLP) oktatója, valamint az MVS-Group adatkutatója is.
A 18. részt különböző platformokon hallgathatja meg:
- alma
- Castbox
- Yandex
- Simplecast
Ebben a bejegyzésben érdekes idézeteket gyűjtöttünk össze a számból.
– Felületesen szólva a természetes nyelv feldolgozása valamiféle feldolgozás. Elvileg milyen nyelv, nem számít. A tanfolyamokon természetes nyelvet veszünk figyelembe, de a valóságban ez valamiféle kitalált nyelv lehet, például programozási nyelv. Elemezhető, generátorok is készíthetők, amelyek a mesterséges nyelvben lefektetett szabályok alapján szövegeket generálnak.
– Ha arról beszélünk, hogy adathalmaz érkezik hozzánk, akkor a természetes nyelv feldolgozásával foglalkozó szakemberek munkája nem sokban különbözik a klasszikus adattudományban végzett munkától vagy a számítógépes látással foglalkozó emberek munkájától. Az NLP most kissé hype terület, és a számítógépes látás kissé megnyugodott és vár.
– Van egy induló Replika, amely NLP-vel foglalkozik. Főleg egy angolul beszélő közönségnek szól, és ott a chatbot megpróbál beszélgetni egy személlyel. Megjelenése van. Amikor regisztrál, kiválaszthatja. Van egy elég erős hálózat, amely csak megpróbál beszélni veled és fenntartani a párbeszédet. A párbeszéd fenntartása és annak érdekében, hogy a chatbot ne felejtse el magát a történetet, meglehetősen összetett mechanizmus, és ezt rendkívül nehéz megtenni. Pár évvel ezelőtt ez nem így történt. Emlékeztek néhány tényre, amelyek egy személyről szóltak, külön adatbázisba vagy valahogy bevitték őket.
– Ha visszatekintünk az egész gépi tanulási iparra, annak hullámmozgásai vannak. Eleinte hihetetlen hype volt, a múlt század 40-50-es éveiben. Mindenki azt gondolta, hogy a mesterséges intelligenciát most feltalálják. De nem sikerült. És ezeket a támadásokat megismételték. A hype elég erős volt, és a vállalatok befektettek ebbe.
– Házszám-felismerést végzett. Fényképezték és megpróbálták felismerni a számokat. Az indexek felismerése ugyanígy történt. Ezt a feladatot elég jól megoldották, már a 80-as években automatizálták. Legalábbis az USA-ban ez automatikusan megoldódott. Automatizálásunk sokkal később kezdődött, bár minden módszer létezett, és ebben a tekintetben nem vagyunk lemaradva.
– Általában azok az emberek, akik ilyen vagy olyan módon beavatkoznak a nyelv feldolgozásába, közvetlenül a három forrás egyikével dolgoznak. Az adatforrás lehet szöveges, diktált üzenet (beszédfelismerés) vagy szkennelt dokumentum (optikai karakterfelismerés, OCR). A második és a harmadik forrásból származó visszafejtett adatokat ezután a természetes nyelv feldolgozásához továbbítják. Ezeknek a forrásoknak megvannak a maguk árnyalatai.
– Ha be akar merülni, és megnézi, milyen területről van szó, menjen Habrbe, hajtson be az “NLP” -be, a szokásos sémába. Van egy természetes nyelv feldolgozó címke, és egy olyan alkategóriába kerül, amely csak ezeket a cikkeket tartalmazza. Van is elég sok könyv. Ha valami érdekesre vágysz, gyakorlásra, néhány projektre van szükséged, amelyeket te magad is meg fogsz valósítani. Felmerül a kérdés, honnan lehet őket beszerezni. Itt vagy szakmai gyakorlat, vagy saját maga végezze el. De ha magad csinálod, tapasztalt emberek nélkül, akkor nagyon lassan fogsz mozogni, vagy egyáltalán nem teszel semmit. Van egy Open Data Science közösség, csatlakozzon hozzá. Ez egy nagyon klassz közösség. Ez nem orosz nyelvű. Vannak olyan kisállat-projektek, amelyekben jelentkezhet, csatlakozhat, megtekintheti a kész kódot, és elkezdheti fejleszteni magát. Ellenőrzésre kerül, kódját ellenőrzi, mint egy szokásos termékcsoportban.