Welcome to Our Website

HPE Kehittäjä Yhteisö Portaali

Alkuperäisen viestin tiedot:

"authorDisplayName": "Carol McDonald","publish": "2018-10-17T08:00:00.000Z","tags": "spark"

tässä blogi, annamme johdatus Apache Spark ja sen historiaa ja tutkia joitakin alueilla, joilla sen tietyn joukon ominaisuuksia näyttää eniten lupaus. Keskustelemme suhteesta muihin keskeisiin teknologioihin ja annamme hyödyllisiä vinkkejä.

with Spark 2.,0 ja myöhemmät versiot, suuret parannukset toteutettiin, jotta Spark helpompi ohjelmoida ja suorittaa nopeammin.

mikä on Apassikipinä?

Kipinä on yleiskäyttöinen hajautettu tietojenkäsittely moottori, joka soveltuu käytettäväksi monenlaisissa olosuhteissa. Päälle Spark core data processing engine, on olemassa kirjastot SQL -, kone oppiminen, kuvio, laskenta -, ja stream processing, joita voidaan käyttää yhdessä hakemuksen. Sparkin tukemia ohjelmointikieliä ovat: Java, Python, Scala ja R., Sovelluskehittäjät ja tieteentekijät sisällyttävät Sparkin sovelluksiinsa nopeasti tiedustelemaan, analysoimaan ja muuntamaan dataa mittakaavaltaan. Tehtävät usein liittyvät Spark sisältää ETL-ja SQL-erän työpaikkoja eri puolilla suurten tietomäärien käsittely streaming tietoja sensorit, Esineiden internet, tai taloudellisia järjestelmiä, ja koneoppimisen tehtäviä.

Historia

jotta ymmärtää, Kipinä, se auttaa ymmärtämään sen historiaa., Ennen kuin Kipinä, siellä oli MapReduce, kestävään hajautettuun puitteet, joiden avulla Google indeksi räjähtävä määrä sisältöä internetissä, yli suuria klustereita hyödyke-palvelimia.

Siellä oli 3 keskeiset käsitteet Google strategia:

  1. Jaa tiedot: kun tiedosto on ladattu osaksi klusterin, se on jaettu paloina, joita kutsutaan data blocks, ja jaetaan tietoja solmut ja monistaa koko klusterin.,
  2. Jaa laskenta: käyttäjät määritä kartta-toiminto, joka käsittelee avain/arvo-pari tuottaa joukko väli-avain/arvo-pareja ja vähentää toiminto, joka yhdistää kaikki väli-arvot, jotka liittyvät samaan väli-näppäintä. Ohjelmat kirjoitettu tämä toiminnallinen tyyli ovat automaattisesti parallelized ja teloitettiin suuri klusterin hyödyke koneet seuraavasti:

    • kartoitus prosessi toimii joka liitetään tiedot solmu, työskentelevät vain sen lohkon tiedot distributed file.,
    • tulokset kartoitus prosessien lähetetään pelkistimien prosessi nimeltä ”shuffle ja lajitella”: avain/arvo-pareja päässä kartantekijät ovat lajiteltu avain, osioitu, jonka määrä pelkistimien, ja sitten lähetetään verkon yli ja kirjoittaa avain lajitellaan ”sekvenssi tiedostoja” vähennysventtiilillä solmut.
    • vähennysventtiilillä prosessi suorittaa sen osoitettu solmu ja toimii vain sen osajoukko tiedot (sen sekvenssi-tiedosto). Pelkistinprosessin ulostulo kirjoitetaan tulostiedostoon.,
  3. Sietää viat: sekä data ja laskenta voivat sietää epäonnistumisia, joita ei ole yli toisen solmun tietojen tai käsittely.

MapReduce sanamäärä toteutus esimerkki:

Jotkut iteratiivisia algoritmeja, kuten PageRank, jota Google käyttää sijoitus sivustoja niiden hakukoneen tuloksia, vaadi ketjuttamalla useita MapReduce työpaikkoja yhteen, joka aiheuttaa paljon lukemisen ja kirjoittamisen levylle., Kun useita MapReduce työpaikkoja on ketjutettu yhteen, kunkin MapReduce työtä, tietoja on lukea distributed file lohkon kartan prosessi, kirjoittanut ja lukea SequenceFile välillä, ja sitten kirjallisen tuotoksen tiedosto vähennysventtiilillä prosessi.

vuosi sen jälkeen, kun Google julkaisi valkoisen kirjan, jossa kuvataan MapReduce puitteet (2004), Doug Leikkaus ja Mike Cafarella luotu Apache Hadoop™.,

Apache Spark™ elämäni alkoi vuonna 2009, kun hankkeen sisällä AMPLab University of California, Berkeley. Sparkista tuli Apache Software Foundationin hautomahanke vuonna 2013, ja sitä mainostettiin alkuvuodesta 2014 yhdeksi säätiön huipputason hankkeista. Kipinä on tällä hetkellä yksi aktiivisimmista hanketta hallinnoi Säätiö, ja yhteisö, joka on kasvanut noin hanke sisältää sekä tuottelias yksittäisten rahoittajien ja hyvin rahoitettu yritysten tukijat, kuten Databricks, IBM: n ja Kiinan Huawei.,

tavoite Kipinä-projekti oli säilyttää edut MapReduce on skaalautuva, hajautettu, vikasietoinen käsittely puitteet, kun joten se on tehokkaampi ja helpompi käyttää. Edut Kipinä yli MapReduce ovat:

  • Kipinä suorittaa paljon nopeammin välimuistin tiedot muistiin useiden rinnakkaisten toimintojen, ottaa huomioon, että MapReduce liittyy enemmän lukemisen ja kirjoittamisen levyltä.
  • Spark suorittaa monisäikeisiä tehtäviä JVM-prosessien sisällä, kun taas MapReduce toimii painavampina JVM-prosesseina., Tämä antaa Sparkille nopeamman käynnistyksen, paremman rinnakkaisuuden ja paremman suorittimen käytön.
  • Spark tarjoaa mapreducea rikkaamman funktionaalisen ohjelmointimallin.
  • Kipinä on erityisen hyödyllinen rinnakkainen käsittely jaetaan tietoja iteratiivisia algoritmeja.

Miten Kipinä-Sovellus Toimii Klusterin

alla Oleva kaavio osoittaa, Kipinä-sovellus käynnissä klusterin.,

  • Kipinä-sovellus toimii itsenäisenä prosesseja, koordinoi SparkSession esine driver-ohjelmaan.
  • resurssi tai klusterin johtaja antaa tehtäviä työntekijöille, yksi tehtävä per osio.
  • tehtävä koskee sen yksikön työn aineisto sen osio ja lähdöt uuden osion aineisto. Koska iteratiiviset algoritmit soveltavat operaatioita toistuvasti dataan, ne hyötyvät välimuistidataseteista iteraatioissa.,
  • Tulokset lähetetään takaisin driver-sovelluksen tai voidaan tallentaa levylle.,toimintaa mukana Kipinä
  • Apache Mesos – yleinen klusterin johtaja, joka voi myös ajaa Hadoop sovelluksia
  • Apache Hadoop LANKA – the resource manager Hadoop 2
  • Kubernetes – avoimen lähdekoodin järjestelmä automatisoida käyttöönottoa, skaalaus, ja hallinta konteissa sovelluksia

Kipinä on myös paikallinen tila, jossa kuljettaja ja pesänhoitajien juosta niin kierteet tietokoneeseen sen sijaan, klusterin, joka on hyödyllistä kehittää sovelluksia alkaen henkilökohtainen tietokone.,

mitä Spark tekee?

Kipinä pystyy käsittely useita petatavua dataa kerrallaan, jaetaan koko klusterin tuhansia yhteistyössä fyysisiä tai virtuaalisia palvelimia. Se on laaja joukko kehittäjä kirjastot ja Api ja tukee kieliä, kuten Java, Python, R, ja Scala; sen joustavuus tekee siitä soveltuu hyvin erilaisia käyttötapauksia., Kipinä on usein käytetään hajautettujen tietojen myymälöissä kuten HPE Ezmeral Tiedot Kangas, Hadoop on HDFS, ja Amazon S3, suosittu NoSQL-tietokannat, kuten HPE Ezmeral Tiedot Kangas, Apache HBase, Apache Cassandra ja MongoDB, ja jaetaan viestit myymälöissä kuten HPE Ezmeral Tiedot Kangas ja Apache Kafka.

Tyypillisiä käyttötapauksia ovat:

Stream processing: log tiedostoja anturin tiedot, sovellus kehittäjät ovat yhä useammin selviytymään ”virtoja” tiedot., Tämä tieto saapuu tasaisena virtana, usein useista lähteistä samanaikaisesti. Vaikka se on varmasti mahdollista tallentaa nämä tiedot syötteeseen levylle ja analysoida niitä jälkikäteen, se voi joskus olla järkevää tai tärkeää prosessi ja toimimaan tietoja kun se saapuu. Esimerkiksi rahoitustapahtumiin liittyviä tietovirtoja voidaan käsitellä reaaliaikaisesti mahdollisesti petollisten liiketoimien tunnistamiseksi ja kieltämiseksi.

Machine learning: Kun tiedon määrä kasvaa, kone oppimisen lähestymistapoja tullut helpommin toteutettavissa ja yhä tarkka., Ohjelmisto voidaan kouluttaa tunnistamaan ja toimimaan käynnistimien hyvin ymmärrettyjen tietokokonaisuuksien sisällä ennen kuin samoja ratkaisuja sovelletaan uusiin ja tuntemattomiin tietoihin. Sparkin kyky tallentaa tietoja muistiin ja nopeasti suorittaa toistuvia kyselyjä tekee siitä hyvän valinnan koneoppimisen algoritmien harjoitteluun. Käynnissä suurin piirtein samanlaisia kyselyitä uudelleen ja uudelleen, asteikolla, vähentää merkittävästi aikaa käydä läpi joukko mahdollisia ratkaisuja, jotta löytää tehokkaimmat algoritmit.,

Interaktiivinen analytics: sen Sijaan, että käynnissä ennalta määriteltyjä kyselyitä luoda staattinen mittaristot myynti-tai tuotantolinjan tuottavuutta tai osakkeiden hinnat, liike analyytikot ja data tutkijat haluavat tutkia niiden tietoja kysymällä kysymyksen, katselu tulos, ja sitten joko muuttaa alkuperäisen kysymyksen hieman tai poraus syvemmälle tuloksia. Tämä interaktiivinen kyselyprosessi edellyttää Spark-järjestelmän kaltaisia järjestelmiä, jotka pystyvät reagoimaan ja sopeutumaan nopeasti.,

tietojen integrointi: eri järjestelmien tuottamat tiedot liiketoiminnassa ovat harvoin riittävän puhtaita tai johdonmukaisia, jotta ne voidaan yksinkertaisesti ja helposti yhdistää raportointia tai analysointia varten. Extract, transform, load (ETL) prosesseja käytetään usein vetää tietoja eri järjestelmien, puhdas ja yhtenäistää se, ja aseta se erilliseen järjestelmään analysointia varten. Sparkia (ja Hadoopia) käytetään yhä enemmän tähän ETL-prosessiin tarvittavien kustannusten ja ajan vähentämiseen.

kuka käyttää kipinää?,

laaja valikoima teknologian myyjät ovat nopeasti tukea Kipinä, tunnustaa mahdollisuuden laajentaa olemassa olevia big data-tuotteita alueille, joilla Kipinä tuottaa todellista lisäarvoa, kuten vuorovaikutteisia kyselyitä ja koneoppimisen. Tunnettuja yrityksiä, kuten IBM ja Huawei on investoinut merkittäviä summia tekniikka, ja kasvava joukko startup rakentavat yrityksiä, jotka riippuvat kokonaan tai osittain, kun Kipinä., Esimerkiksi vuonna 2013 Berkeley joukkue vastuussa luoda Kipinä perustettiin Databricks, joka tarjoaa isännöi end-to-end data alustan powered by Kipinä. Yhtiö on hyvin rahoitettu, on saanut $247 miljoonaa yli neljä kierrosta investointeja vuonna 2013, 2014, 2016 ja 2017, ja Databricks työntekijät edelleen merkittävä rooli parantaa ja laajentaa avoimen lähdekoodin Apache Spark-projektiin.,

suuret Hadoop myyjät, mukaan lukien MapR, Cloudera, ja Hortonworks, ovat kaikki muuttaneet tukea LANKA-pohjainen Kipinä rinnalla nykyisiä tuotteita, ja jokainen myyjä pyrkii tuottamaan lisäarvoa asiakkailleen. Muualla, MOTOROLA, Huawei, ja muut on kaikki tehty merkittäviä investointeja Apache Spark, integroida se osaksi omia tuotteitaan ja edistää parannuksia ja laajennuksia takaisin Apache projekti., Web-pohjainen yritykset, kuten Kiinalainen hakukone Baidu, e-commerce toiminta Taobao, ja sosiaalisen verkostoitumisen yhtiö Tencent, kaikki ajaa Kipinä-pohjainen toiminta mittakaavassa, Tencent on 800 miljoonaa aktiivista käyttäjää kuulemma tuottaa yli 700 teratavua dataa päivässä käsittelyn klusterin yli 8000 laskea solmuja.

lisäksi nämä web-pohjainen jättiläisiä, lääkeyhtiö Novartis riippuu Kipinä vähentää aikaa tarvitaan saada mallinnus tiedot käsiin tutkijat, samalla kun varmistetaan, että eettiset ja sopimusoikeudelliset suojakeinot ovat voimassa.,

mikä sytyttää kipinän erilleen?

On monia syitä valita Kipinä, mutta seuraavat kolme ovat keskeisiä:

Yksinkertaisuus: Kipinä ominaisuuksia ovat saatavilla joukko rikas Api, kaikki suunniteltu erityisesti vuorovaikutuksessa nopeasti ja helposti tiedot mittakaavassa. Nämä APIs-järjestelmät ovat hyvin dokumentoituja ja jäsenneltyjä siten, että datatutkijoiden ja sovelluskehittäjien on helppo panna Spark nopeasti toimimaan.

Nopeus: Spark on suunniteltu nopeus, toiminta-sekä muistiin että kiintolevylle., Käyttämällä Kipinä, joukkue Databricks sidottu ensimmäisen paikassa, jossa joukkue University of California, San Diego, vuonna 2014 Daytona GraySort benchmarking-haaste (https://spark.apache.org/news/spark-wins-daytona-gray-sort-100tb-benchmark.html). Haaste liittyy käsittely staattinen data asettaa; Databricks joukkue pystyi käsittelemään 100 teratavua dataa tallennetaan solid-state drives vain 23 minuuttia, ja edellinen voittaja kesti 72 minuuttia käyttämällä Hadoop ja eri klusterin kokoonpano. Spark voi toimia vieläkin paremmin, kun se tukee interaktiivisia kyselyitä muistiin tallennetuista tiedoista., Näissä tilanteissa on väittää, että Kipinä voi olla 100 kertaa nopeammin kuin Hadoop n MapReduce.

Tue: Spark tukee erilaisia ohjelmointikieliä, kuten Java, Python, R, ja Scala. Kipinä sisältää tuen tiivis integrointi useita johtavia varastointi ratkaisuja Hadoop ekosysteemin ja sen jälkeen, mukaan lukien HPE Ezmeral Tiedot Kangas (tiedoston järjestelmä, tietokanta, ja tapahtuma store), Apache Hadoop (HDFS), Apache HBase, ja Apache Cassandra. Lisäksi Apache Spark yhteisö on suuri, aktiivinen ja kansainvälinen., Kasvava joukko kaupallisia tarjoajia, mukaan lukien Databricks, IBM, ja kaikki tärkeimmät Hadoop myyjät, antaa kattava tuki Kipinä-pohjaisia ratkaisuja.

Teho Tiedot Putkistojen

Paljon Kipinä voima on sen kyky yhdistää hyvin erilaisia tekniikoita ja prosesseja yhdessä yhdeksi kokonaisuudeksi. Ulkopuolella Kipinä, diskreetti tehtäviä valitsemalla tietoja, muuttaa tietoja eri tavoin, ja analysoimalla muuttanut tuloksia saattaa helposti vaatia useita erillisiä käsittely puitteet, kuten Apache Oozie., Kipinä, toisaalta, tarjoaa mahdollisuuden yhdistää nämä yhteen, rajojen ylittämistä välillä erän, streaming, ja interaktiivinen työnkulkuja siten, että käyttäjä tuottavampia.

Kipinä työpaikkoja suorittaa useita toimintoja peräkkäin, muisti, ja vain valuu levylle, kun tarvitaan muistin rajoitukset. Kipinä helpottaa hallintaa näitä erilaisia prosesseja, tarjoaa integroidun koko – data pipeline, että on helpompi määrittää, helpompi suorittaa ja helpompi ylläpitää., Käyttö tapauksissa, kuten ETL, nämä putkistot voivat tulla erittäin rikas ja monimutkainen, yhdistämällä suuria määriä tuotantopanoksia ja monenlaisia käsittelyvaiheita yhtenäiseen kokonaisuuteen, joka johdonmukaisesti tuottaa halutun tuloksen.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *