geometric-intelligence · anilkeshwani · Oct 8, 2025 · Oct 8, 2025 · Oct 8, 2025 · Oct 12, 2025
diff --git a/configs/dataset/graph/artnet-exp.yaml b/configs/dataset/graph/artnet-exp.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: artnet-exp
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 75
+  num_classes: 2
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/artnet-views.yaml b/configs/dataset/graph/artnet-views.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: artnet-views
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 50
+  num_classes: 1
+  task: regression
+  loss_type: mae
+  monitor_metric: mse
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/avazu-ctr.yaml b/configs/dataset/graph/avazu-ctr.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: avazu-ctr
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 260
+  num_classes: 1
+  task: regression
+  loss_type: mae
+  monitor_metric: mse
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/city-reviews.yaml b/configs/dataset/graph/city-reviews.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: city-reviews
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 204
+  num_classes: 2
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/city-roads-L.yaml b/configs/dataset/graph/city-roads-L.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: city-roads-L
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 207
+  num_classes: 1
+  task: regression
+  loss_type: mae
+  monitor_metric: mse
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/city-roads-M.yaml b/configs/dataset/graph/city-roads-M.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: city-roads-M
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 68
+  num_classes: 1
+  task: regression
+  loss_type: mae
+  monitor_metric: mse
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/hm-categories.yaml b/configs/dataset/graph/hm-categories.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: hm-categories
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 120
+  num_classes: 21
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/hm-prices.yaml b/configs/dataset/graph/hm-prices.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: hm-prices
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 264
+  num_classes: 1
+  task: regression
+  loss_type: mae
+  monitor_metric: mse
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/pokec-regions.yaml b/configs/dataset/graph/pokec-regions.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: pokec-regions
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: True
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 56
+  num_classes: 183
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/tolokers-2.yaml b/configs/dataset/graph/tolokers-2.yaml
@@ -0,0 +1,38 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.GraphlandDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: graphland
+    data_name: tolokers-2
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    drop_missing_y: False # No NaNs in the target column
+    impute_missing_x: 
+      _target_: sklearn.impute.SimpleImputer
+      strategy: most_frequent
+      copy: true # if false, the input X is modified directly
+      add_indicator: false # if true, adds a boolean indicator for missing values
+
+# Dataset parameters
+parameters:
+  num_features: 19
+  num_classes: 2
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: node
+
+#splits
+split_params:
+  learning_setting: transductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: random #'k-fold' # either "k-fold" or "random" strategies
+  k: 10 # for "k-fold" Cross-Validation
+  train_prop: 0.5 # for "random" strategy splitting
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 1 # Fixed
+  num_workers: 0
+  pin_memory: False