Table des matières
Les fichiers Parquet sont un format de stockage de données colonnaires open source, souvent utilisé dans le domaine du Big Data et de l’analyse de données. Ils sont conçus pour être efficaces en termes de stockage et de traitement, ce qui les rend adaptés à des volumes de données importants. Voici quelques points clés sur les fichiers Parquet :
Compression: Les fichiers Parquet utilisent des techniques de compression pour réduire la taille des données, ce qui permet d’économiser de l’espace de stockage et de réduire les temps de transfert sur le réseau.
Colonnes: Contrairement aux formats de fichier traditionnels qui stockent les données par lignes, Parquet stocke les données par colonnes. Cela permet une lecture sélective efficace des données, ce qui peut accélérer les requêtes analytiques, car seules les colonnes nécessaires sont lues.
Partitions: Les fichiers Parquet peuvent être partitionnés, ce qui signifie qu’ils peuvent être divisés en sous-groupes basés sur les valeurs de certaines colonnes. Cela peut améliorer les performances lors de l’exécution d’opérations de filtrage ou d’agrégation, car seules les partitions pertinentes sont traitées.
Schéma: Les fichiers Parquet incluent un schéma intégré qui spécifie la structure des données stockées dans le fichier. Cela permet de garantir l’intégrité des données et facilite la lecture des données sans avoir besoin d’informations externes sur la structure.
Les fichiers Parquet sont un format de stockage de données efficace, conçu pour répondre aux besoins des applications analytiques sur des ensembles de données volumineux.
Installation
$ pip install pyarrow
Exemple
import pandas as pd
import pyarrow as pa
df=pd.read_parquet('paris-2024-sites-de-competition.parquet')
# On remplace les , part des .
df['latitude'] = [x.replace(',', '.') for x in df['latitude']]
df['longitude'] = [x.replace(',', '.') for x in df['longitude']]
print(df)
code_site nom_site category_id \ 0 GRP Grand Palais venue-olympic 1 CDM Arena Champ de Mars venue-olympic 2 RGA Stade Roland Garros venue-olympic 3 TAH Tahiti Teahupo'o venue-olympic 4 CDM Arena Champ de Mars venue-paralympic .. ... ... ... 56 RGA Stade Roland Garros venue-paralympic 57 INV Invalides venue-paralympic 58 SP1 Arena Paris Sud 1 venue-paralympic 59 BCY Arena Bercy venue-paralympic 60 STA Stade de France venue-paralympic sports start_date end_date \ 0 Escrime (FEN), Taekwondo (TKW) 2024-07-27 2024-08-10 1 Judo (JUD), Lutte (WRE) 2024-07-27 2024-08-11 2 Tennis (TEN), Boxe (BOX) 2024-07-27 2024-08-10 3 Surf (SRF) 2024-07-27 2024-07-30 4 Para Judo (JUD), Rugby fauteuil (WRU) 2024-08-29 2024-09-07 .. ... ... ... 56 Tennis fauteuil (WTE) 2024-08-30 2024-09-07 57 Para Tir à l'arc (ARC), Para-athlétisme (marat... 2024-08-29 2024-09-08 58 Boccia (BOC) 2024-08-29 2024-09-05 59 Basketball fauteuil (WBK) 2024-08-29 2024-09-08 60 Para Athlétisme (ATH) 2024-08-30 2024-09-07 adress latitude longitude \ 0 None 48.86616355 2.3125474 1 None 48.8531 2.30252 2 None 48.845968 2.253522 3 None -17.86693 -149.25208 4 None 48.8531 2.30252 .. ... ... ... 56 None 48.845968 2.253522 57 None 48.85704803 2.312835932 58 None 48.832968 2.2840069 59 None 48.83863 2.378597 60 None 48.924475 2.360127 point_geo 0 b'\x01\x01\x00\x00\x00A\x99\xeb\xd9\x18\x80\x0... 1 b'\x01\x01\x00\x00\x00]\x16\x13\x9b\x8fk\x02@\... 2 b'\x01\x01\x00\x00\x007\x88\xd6\x8a6\x07\x02@4... 3 b'\x01\x01\x00\x00\x009\x7f\x13\n\x11\xa8b\xc0... 4 b'\x01\x01\x00\x00\x00]\x16\x13\x9b\x8fk\x02@\... .. ... 56 b'\x01\x01\x00\x00\x007\x88\xd6\x8a6\x07\x02@4... 57 b'\x01\x01\x00\x00\x00#\xa1\x07 \xb0\x80\x02@\... 58 b'\x01\x01\x00\x00\x00\xed\xb4\xdah\xa5E\x02@\... 59 b'\x01\x01\x00\x00\x00\xe2\xe8*\xdd]\x07\x03@\... 60 b'\x01\x01\x00\x00\x00\xb3@\xbbC\x8a\xe1\x02@\... [61 rows x 10 columns]
import folium
m = folium.Map(location=[46.868,3.494],zoom_start=6)
for index, location_info in df.iterrows():
folium.Marker([location_info["latitude"], location_info["longitude"]], popup=location_info["sports"]+' '+location_info["nom_site"]).add_to(m)
m
Liens
https://fr.wikipedia.org/wiki/Apache_Parquet
https://www.icem7.fr/cartographie/parquet-devrait-remplacer-le-format-csv/
https://www.cetic.be/Apache-Parquet-pour-le-stockage-de-donnees-volumineuses
Métadonnées
Posté le: 29.05.2024
Nombre de mots: 536
Temps de lecture: 3 minutes
Cet article fait partie de la série: Pandas
La cité en flamme - Don Winslow Norferville - Franck Thilliez