Codebase Evaluation Examples

This directory contains practical examples and scripts for evaluating AI agent improvements to codebases using Terraphim AI.

Quick Start

1. Evaluate Your Own Codebase

# Run complete evaluation workflow
./scripts/evaluate-ai-agent.sh /path/to/your/codebase

# The script will:
# 1. Create baseline evaluation
# 2. Prompt you to apply AI changes
# 3. Re-evaluate after changes
# 4. Generate verdict report

2. View Example Evaluation

# See what a typical evaluation looks like
cat example-outputs/verdict-example.md

Directory Structure

examples/codebase-evaluation/
├── README.md                          # This file
├── CODEBASE_EVALUATION_DESIGN.md     # Complete design document
├── scripts/                           # Evaluation scripts
│   ├── evaluate-ai-agent.sh          # Master evaluation script
│   ├── baseline-evaluation.sh        # Baseline metrics
│   ├── post-evaluation.sh            # Post-change metrics
│   └── compare-evaluations.sh        # Comparison and verdict
├── kg-templates/                      # Knowledge graph templates
│   ├── code-quality.md               # Code quality terms
│   ├── bug-patterns.md               # Bug detection terms
│   ├── performance.md                # Performance terms
│   └── security.md                   # Security terms
└── example-outputs/                   # Example evaluation results
    ├── verdict-example.md            # Sample verdict report
    └── baseline/                     # Sample baseline metrics

Scripts Overview

Master Script

evaluate-ai-agent.sh - Complete evaluation workflow

./scripts/evaluate-ai-agent.sh <codebase_path> [ai_agent_name] [role_name]

# Examples:
./scripts/evaluate-ai-agent.sh ./my-project
./scripts/evaluate-ai-agent.sh ./my-project claude-code "Security Auditor"

Individual Scripts

baseline-evaluation.sh - Run baseline evaluation

./scripts/baseline-evaluation.sh <codebase_path> [role_name]

post-evaluation.sh - Run post-change evaluation

./scripts/post-evaluation.sh <codebase_path> [role_name]

compare-evaluations.sh - Generate verdict

./scripts/compare-evaluations.sh

Metrics Collected

Terraphim AI Knowledge Graph Metrics

Semantic matches for code quality issues
Pattern detection using Aho-Corasick automata
Concept relationship analysis

Rust-Specific Metrics (if applicable)

Clippy Warnings: Linting issues count
Test Results: Pass/fail counts
Anti-Patterns: unwrap(), panic!, todo!, unimplemented!()
TODOs/FIXMEs: Unfinished work indicators

General Metrics

Lines of Code: Total LOC via tokei
Code Complexity: Cyclomatic complexity (if integrated)
Coverage: Test coverage percentage (if integrated)

Verdict Logic

The evaluation generates one of three verdicts:

✅ IMPROVEMENT: More metrics improved than deteriorated
❌ DETERIORATION: More metrics deteriorated than improved
➖ NEUTRAL: Equal improvements and deteriorations, or minimal changes

Example Use Cases

Use Case 1: Evaluate Claude Code Changes

# Create baseline
./scripts/baseline-evaluation.sh ./my-rust-project "Code Reviewer"

# Use Claude Code to refactor your code
# (manual step)

# Evaluate changes
./scripts/post-evaluation.sh ./my-rust-project "Code Reviewer"

# Get verdict
./scripts/compare-evaluations.sh

Use Case 2: Evaluate Pull Request from AI Agent

# Checkout main branch
git checkout main
./scripts/baseline-evaluation.sh . "Security Auditor"

# Checkout PR branch
git checkout ai-agent-pr-123
./scripts/post-evaluation.sh . "Security Auditor"

# Compare
./scripts/compare-evaluations.sh

Use Case 3: Continuous Evaluation in CI/CD

# In your CI pipeline (e.g., GitHub Actions)
- name: Baseline evaluation
  run: ./scripts/baseline-evaluation.sh ${{ github.workspace }} "Code Reviewer"

- name: Apply AI changes
  run: # Your AI agent step

- name: Post-change evaluation
  run: ./scripts/post-evaluation.sh ${{ github.workspace }} "Code Reviewer"

- name: Generate verdict
  run: ./scripts/compare-evaluations.sh

- name: Fail if deterioration
  run: exit 1  # compare-evaluations.sh already exits with 1 on deterioration

Knowledge Graph Templates

Knowledge graph templates define evaluation perspectives. Located in kg-templates/:

Code Quality (`code-quality.md`)

# Code Quality

synonyms:: code smell, technical debt, refactoring opportunity

Bug Patterns (`bug-patterns.md`)

# Bug Patterns

synonyms:: null pointer, memory leak, race condition, unhandled exception

Performance (`performance.md`)

# Performance Bottleneck

synonyms:: slow code, inefficient algorithm, O(n^2) complexity

Security (`security.md`)

# Security Vulnerability

synonyms:: SQL injection, XSS, CSRF, authentication flaw

To use custom KG templates:

Copy templates to docs/src/kg/ in your Terraphim installation
Rebuild Terraphim indices
Run evaluation with appropriate role

Customization

Add Custom Evaluation Metrics

Edit scripts to add your own metrics:

# In baseline-evaluation.sh or post-evaluation.sh

# Example: Check for specific patterns
rg -i "your_pattern" "$CODEBASE_PATH" --count-matches > "$OUTPUT_DIR/custom-metric.txt"

Define Custom Roles

Create role-specific configurations in Terraphim:

{
  "name": "My Custom Role",
  "relevance_function": "terraphim-graph",
  "kg": {
    "knowledge_graph_local": {
      "input_type": "markdown",
      "path": "docs/src/kg/my-custom-kg"
    }
  }
}

Extend Verdict Logic

Modify compare-evaluations.sh to include custom decision criteria:

# Add your custom metric comparison
if [ -f "$BASELINE_DIR/custom-metric.txt" ] && [ -f "$AFTER_DIR/custom-metric.txt" ]; then
    # Your comparison logic
fi

Troubleshooting

Script Not Found Errors

Ensure scripts are executable:

chmod +x scripts/*.sh

Terraphim Binary Not Found

Set TERRAPHIM_TUI_BIN environment variable:

export TERRAPHIM_TUI_BIN=/path/to/terraphim-tui
./scripts/evaluate-ai-agent.sh ./my-project

Or build from source:

cargo build --release -p terraphim_tui --features repl-full
export TERRAPHIM_TUI_BIN=./target/release/terraphim-tui

No Baseline Results

Ensure you have:

Built Terraphim TUI
Created knowledge graph files in docs/src/kg/
Valid codebase path

Exit Code Issues

Compare script exits with code 1 if deterioration detected. This is intentional for CI/CD integration.

Integration Examples

GitHub Actions

See CODEBASE_EVALUATION_DESIGN.md for complete GitHub Actions workflow example.

GitLab CI

evaluation:
  stage: test
  script:
    - ./scripts/baseline-evaluation.sh . "Code Reviewer"
    # Apply AI changes
    - ./scripts/post-evaluation.sh . "Code Reviewer"
    - ./scripts/compare-evaluations.sh
  artifacts:
    paths:
      - evaluation-results/
    reports:
      junit: evaluation-results/verdict.md

Resources

Contributing

To contribute evaluation patterns or improvements:

Test your changes with real codebases
Document new metrics in this README
Add example outputs to example-outputs/
Submit PR with clear description

License

Follows Terraphim AI licensing (Apache 2.0).

For questions, open an issue at https://github.com/terraphim/terraphim-ai/issues

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Codebase Evaluation Examples

Quick Start

1. Evaluate Your Own Codebase

2. View Example Evaluation

Directory Structure

Scripts Overview

Master Script

Individual Scripts

Metrics Collected

Terraphim AI Knowledge Graph Metrics

Rust-Specific Metrics (if applicable)

General Metrics

Verdict Logic

Example Use Cases

Use Case 1: Evaluate Claude Code Changes

Use Case 2: Evaluate Pull Request from AI Agent

Use Case 3: Continuous Evaluation in CI/CD

Knowledge Graph Templates

Code Quality (`code-quality.md`)

Bug Patterns (`bug-patterns.md`)

Performance (`performance.md`)

Security (`security.md`)

Customization

Add Custom Evaluation Metrics

Define Custom Roles

Extend Verdict Logic

Troubleshooting

Script Not Found Errors

Terraphim Binary Not Found

No Baseline Results

Exit Code Issues

Integration Examples

GitHub Actions

GitLab CI

Resources

Contributing

License

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Codebase Evaluation Examples

Quick Start

1. Evaluate Your Own Codebase

2. View Example Evaluation

Directory Structure

Scripts Overview

Master Script

Individual Scripts

Metrics Collected

Terraphim AI Knowledge Graph Metrics

Rust-Specific Metrics (if applicable)

General Metrics

Verdict Logic

Example Use Cases

Use Case 1: Evaluate Claude Code Changes

Use Case 2: Evaluate Pull Request from AI Agent

Use Case 3: Continuous Evaluation in CI/CD

Knowledge Graph Templates

Code Quality (code-quality.md)

Bug Patterns (bug-patterns.md)

Performance (performance.md)

Security (security.md)

Customization

Add Custom Evaluation Metrics

Define Custom Roles

Extend Verdict Logic

Troubleshooting

Script Not Found Errors

Terraphim Binary Not Found

No Baseline Results

Exit Code Issues

Integration Examples

GitHub Actions

GitLab CI

Resources

Contributing

License

Code Quality (`code-quality.md`)

Bug Patterns (`bug-patterns.md`)

Performance (`performance.md`)

Security (`security.md`)