Zaawansowana analiza danych w PySpark metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy duży...

Full description

Bibliographic Details
Main Authors: Tandon, Akash, Ryza, Sandy (Author), Laserson, Uri (Author), Owen, Sean (Author)
Format: eBook
Language:Polish
Published: Gliwice Helion 2023
Edition:[First edition]
Subjects:
Online Access:
Collection: O'Reilly - Collection details see MPG.ReNa
LEADER 03071nmm a2200433 u 4500
001 EB002167023
003 EBX01000000000000001306038
005 00000000000000.0
007 cr|||||||||||||||||||||
008 230704 ||| pol
020 |a 9788383220703 
050 4 |a QA76.9.D343 
100 1 |a Tandon, Akash 
130 0 |a Advanced analytics with PySpark 
245 0 0 |a Zaawansowana analiza danych w PySpark  |b metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark  |c Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills ; tłumaczenie Andrzej Watrak 
250 |a [First edition] 
260 |a Gliwice  |b Helion  |c 2023 
300 |a 192 pages  |b illustrations 
653 |a Data mining / fast 
653 |a Big data / fast 
653 |a SPARK (Electronic resource) / http://id.loc.gov/authorities/names/n2004007265 
653 |a Python (Computer program language) / fast 
653 |a Big data / http://id.loc.gov/authorities/subjects/sh2012003227 
653 |a Python (Computer program language) / http://id.loc.gov/authorities/subjects/sh96008834 
653 |a SPARK (Electronic resource) / fast 
653 |a Données volumineuses 
653 |a Data mining / http://id.loc.gov/authorities/subjects/sh97002073 
653 |a Python (Langage de programmation) 
653 |a Exploration de données (Informatique) 
700 1 |a Ryza, Sandy  |e author 
700 1 |a Laserson, Uri  |e author 
700 1 |a Owen, Sean  |e author 
041 0 7 |a pol  |2 ISO 639-2 
989 |b OREILLY  |a O'Reilly 
776 |z 8383220707 
776 |z 9788383220703 
856 4 0 |u https://learning.oreilly.com/library/view/~/9788383220703/?ar  |x Verlag  |3 Volltext 
082 0 |a 006.3/12 
520 |a Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych. Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy