[BENCHMARK] Add GenEval benchmarks

## Description

Add GenEval benchmark with 6 subcategories for compositional evaluation.

## Details

- **Source:** GitHub JSON from `djghosh13/geneval` repo
- **Subcategories:** single_object, two_object, counting, colors, position, color_attr
- **Collate:** `prompt_with_auxiliaries_collate`

## Implementation

- Add `setup_geneval_dataset` in `src/pruna/data/datasets/prompt.py`
- Support `category` param for filtering subcategories
- Register in `base_datasets`
- Add `BenchmarkInfo` entry with metrics: `["qa_accuracy"]`, subsets list
- Auxiliaries should include `questions` list and `tag` for evaluation
- Add test

## Acceptance Criteria

- [ ] `PrunaDataModule.from_string("GenEval")` works (all subcategories)
- [ ] `PrunaDataModule.from_string("GenEval", category="counting")` works
- [ ] Auxiliaries include `questions` and `tag` fields
- [ ] Test passes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BENCHMARK] Add GenEval benchmarks #514

Description

Details

Implementation

Acceptance Criteria

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[BENCHMARK] Add GenEval benchmarks #514

Description

Description

Details

Implementation

Acceptance Criteria

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions