Fix convert v30 with image datasets

2025-04-24 18:51:53 +02:00 · 2025-04-24 18:51:53 +02:00 · 253c649507
parent 71715c3914
commit 253c649507
1 changed files with 25 additions and 5 deletions
--- a/lerobot/common/datasets/v30/convert_dataset_v21_to_v30.py
+++ b/lerobot/common/datasets/v30/convert_dataset_v21_to_v30.py
@ -24,8 +24,9 @@ from typing import Any
 import jsonlines
 import pandas as pd
 import pyarrow as pa
 import tqdm
-from datasets import Dataset
+from datasets import Dataset, Features, Image
 from huggingface_hub import HfApi, snapshot_download
 from requests import HTTPError
@ -138,7 +139,7 @@ def convert_tasks(root, new_root):
    write_tasks(df_tasks, new_root)
-def concat_data_files(paths_to_cat, new_root, chunk_idx, file_idx):
+def concat_data_files(paths_to_cat, new_root, chunk_idx, file_idx, image_keys):
    # TODO(rcadene): to save RAM use Dataset.from_parquet(file) and concatenate_datasets
    dataframes = [pd.read_parquet(file) for file in paths_to_cat]
    # Concatenate all DataFrames along rows
@ -146,13 +147,25 @@ def concat_data_files(paths_to_cat, new_root, chunk_idx, file_idx):
    path = new_root / DEFAULT_DATA_PATH.format(chunk_index=chunk_idx, file_index=file_idx)
    path.parent.mkdir(parents=True, exist_ok=True)
-    concatenated_df.to_parquet(path, index=False)
+
    if len(image_keys) > 0:
        schema = pa.Schema.from_pandas(concatenated_df)
        features = Features.from_arrow_schema(schema)
        for key in image_keys:
            features[key] = Image()
        schema = features.arrow_schema
    else:
        schema = None
    concatenated_df.to_parquet(path, index=False, schema=schema)
 def convert_data(root, new_root):
    data_dir = root / "data"
    ep_paths = sorted(data_dir.glob("*/*.parquet"))
    image_keys = get_image_keys(root)
    ep_idx = 0
    chunk_idx = 0
    file_idx = 0
@ -179,7 +192,7 @@ def convert_data(root, new_root):
            paths_to_cat.append(ep_path)
            continue
-        concat_data_files(paths_to_cat, new_root, chunk_idx, file_idx)
+        concat_data_files(paths_to_cat, new_root, chunk_idx, file_idx, image_keys)
        # Reset for the next file
        size_in_mb = ep_size_in_mb
@ -190,7 +203,7 @@ def convert_data(root, new_root):
    # Write remaining data if any
    if paths_to_cat:
-        concat_data_files(paths_to_cat, new_root, chunk_idx, file_idx)
+        concat_data_files(paths_to_cat, new_root, chunk_idx, file_idx, image_keys)
    return episodes_metadata
@ -202,6 +215,13 @@ def get_video_keys(root):
    return video_keys
 def get_image_keys(root):
    info = load_info(root)
    features = info["features"]
    image_keys = [key for key, ft in features.items() if ft["dtype"] == "image"]
    return image_keys
 def convert_videos(root: Path, new_root: Path):
    video_keys = get_video_keys(root)
    if len(video_keys) == 0: