Chcemy, aby nasze aplikacje w Apache Spark wykorzystywały wszystkie przydzielone zasoby. Niestety nie jest to takie proste. Rozproszenie obliczeń niesie za sobą koszty zarządzania zadaniami, a same zadania mają wobec siebie zależności. Z jednej strony ogranicza nas CPU (szybkość obliczeń), z drugiej strony dyski i sieć. MapReduce poświęciłem dedykowany materiał wideo. W artykule dowiesz się jak w 2 prostych krokach poprawić utylizację zasobów w Apache Spark.Spis treścihide1Prosta aplikacja2Nie taka prost...
Strona głównaProgramowanie rozproszone
Programowanie rozproszone 1603 dni, 15 godzin, 5 minut temu 14 pokaż kod licznika zwiń
Podobne artykuły:
- O analityce z Pawłem Potasińskim - Patoarchitekci
- Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych
- Jak zacząć z Apache Spark i Cassandra - Wiadro Danych
- Big Data - Jak zacząć? - Wiadro Danych
- PySpark ETL z MySQL i MongoDB do Cassandra - Wiadro Danych
- Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych
- Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych
- Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych
- Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych
- Dlaczego Elasticsearch kłamie? Jak działa Elasticsearch? - Wiadro Danych
- Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych