
Terminé!
Vous pouvez maintenant exécuter PySpark dans un cahier Jupyter :)
Méthode 2 - Package FindSpark
Il existe une autre manière plus générale d’utiliser PySpark dans un carnet
Jupyter: utilisez le package findSpark pour créer un contexte Spark disponible
dans votre code.
Le package findSpark n’est pas spécifique à Jupyter Notebook, vous pouvez
également utiliser cette astuce dans votre IDE préféré.
Pour installer le findpark:
$ pip install findspark
Lancer un cahier Jupyter régulier:
$ jupyter notebook
Créez un nouveau bloc-notes Python [par défaut] et écrivez le script suivant:
importation findpark
findpark.init () import pyspark
import aléatoire sc = pyspark.SparkContext (appName = "Pi")
num_samples = 100000000 def inside (p):
x, y = random.random (), random.random ()
return x * x + y * y <1 count = sc.parallelize (range (0, num_samples)).
filter (inside) .count () pi = 4 * count / num_samples
print (pi) sc.stop ()
Le résultat devrait être: