# DSF Expert Component Architecture

## 🏗️ Overall Architecture

```
┌──────────────────────────────────────────────────────────────────┐
│                         SMILE System                             │
│                                                                  │
│  ┌────────────┐    ┌──────────────────────────────────┐          │
│  │   Query    │───▶│    Instruction Selection         │          │
│  │   (test)   │    │    (using sQI: Query-Inst Sim)   │          │
│  └────────────┘    └──────────────┬───────────────────┘          │
│                                   │                              │
│                                   │ Selected Instruction         │
│                                   ▼                              │
│                    ┌───────────────────────────┐                 │
│                    │   Example Selection       │                 │
│                    │   (Greedy Submodular)     │                 │
│                    │                           │                 │
│                    │  ┌───────────────────┐    │                 │
│                    │  │  DSFExpert System │    │                 │
│                    │  │                   │    │                 │
│                    │  │  ┌──────────────┐ │    │                 │
│                    │  │  │  SS Expert   │ │◀───┼─── SS Channels  │
│                    │  │  │ (Diversity)  │ │    │                 │
│                    │  │  └──────────────┘ │    │                 │
│                    │  │         │         │    │                 │
│                    │  │  ┌──────────────┐ │    │                 │
│                    │  │  │  SQ Expert   │ │◀───┼─── SQ Channels  │
│                    │  │  │ (Relevance)  │ │    │                 │
│                    │  │  └──────────────┘ │    │                 │
│                    │  │         │         │    │                 │
│                    │  │  ┌──────────────┐ │    │                 │
│                    │  │  │  ST Expert   │ │◀───┼─── ST Channels  │
│                    │  │  │ (Alignment)  │ │    │                 │
│                    │  │  └──────────────┘ │    │                 │
│                    │  │         │         │    │                 │
│                    │  │         ▼         │    │                 │
│                    │  │  ┌──────────────┐ │    │                 │
│                    │  │  │ Aggregation  │ │    │                 │
│                    │  │  │   (min/avg)  │ │    │                 │
│                    │  │  └──────────────┘ │    │                 │
│                    │  │         │         │    │                 │
│                    │  └─────────┼─────────┘    │                 │
│                    │            │              │                 │
│                    │            ▼              │                 │
│                    │      Final Score          │                 │
│                    └───────────────────────────┘                 │
│                                   │                              │
│                                   ▼                              │
│                         Selected K Examples                      │
│                                   │                              │
└───────────────────────────────────┼──────────────────────────────┘
                                    ▼
                            ┌──────────────┐
                            │  LLM + ICL   │
                            │  Prediction  │
                            └──────────────┘
```

## 🔍 Component Details

### 1. SS Expert (Self-Similarity)
**Purpose**: Ensure diversity in selected examples

```
┌─────────────────────────────────────────────┐
│          SS Expert (Diversity)              │
├─────────────────────────────────────────────┤
│                                             │
│  Input: k channels (k-means centroids)      │
│  • Channel 1: Similarity to centroid 1      │
│  • Channel 2: Similarity to centroid 2      │
│  • ...                                      │
│  • Channel k: Similarity to centroid k      │
│                                             │
│  Function: DSF with log1p/cap transform     │
│                                             │
│  Output: Diversity score f^SS(S)            │
│                                             │
│  Intuition: Higher score = more diverse     │
│             examples from different         │
│             clusters                        │
└─────────────────────────────────────────────┘
```

**Key Properties**:
- Channels: k (default: 10 centroids)
- Ensures examples cover different semantic regions
- Prevents redundant/similar examples

### 2. SQ Expert (Query-Example Similarity)
**Purpose**: Select examples relevant to the test query

```
┌─────────────────────────────────────────────┐
│       SQ Expert (Query Relevance)           │
├─────────────────────────────────────────────┤
│                                             │
│  Input: 2 channels                          │
│  • Channel 1: Cosine similarity(query, ex)  │
│  • Channel 2: ROUGE score(query, ex)        │
│                                             │
│  Function: DSF with log1p/cap transform     │
│                                             │
│  Output: Relevance score f^SQ(q, S)         │
│                                             │
│  Intuition: Higher score = examples more    │
│             similar to test query           │
└─────────────────────────────────────────────┘
```

**Key Properties**:
- Channels: 2 (semantic + lexical similarity)
- Ensures examples match query semantics
- Critical for task performance

### 3. SI Expert (Instruction-Example Alignment)
**Purpose**: Select examples that align with the instruction

```
┌─────────────────────────────────────────────┐
│     SI Expert (Instruction Alignment)       │
├─────────────────────────────────────────────┤
│                                             │
│  Input: 2 channels                          │
│  • Channel 1: Information Gain              │
│  • Channel 2: Prototype similarity          │
│                                             │
│  Function: DSF with log1p/cap transform     │
│                                             │
│  Output: Alignment score f^SI(T, S)         │
│                                             │
│  Intuition: Higher score = examples better  │
│             demonstrate instruction         │
└─────────────────────────────────────────────┘
```

**Key Properties**:
- Channels: 2 (IG + prototype)
- Ensures examples fit instruction pattern
- Important for multi-instruction scenarios

### 4. Aggregation Layer
**Purpose**: Combine expert scores into final score

```
┌─────────────────────────────────────────────┐
│          Aggregation Methods                │
├─────────────────────────────────────────────┤
│                                             │
│  Input: [f^SS, f^SQ, f^SI]                  │
│                                             │
│  Methods:                                   │
│  • min:     min(f^SS, f^SQ, f^SI)           │
│  • softmin: weighted sum with exp weights   │
│                                             │
│  Output: Final score f(q, T, S)             │
│                                             │
│  Default: min (theoretically grounded)      │
└─────────────────────────────────────────────┘
```

**Key Properties**:
- Default: min (submodular property preserved)
- Alternative: softmin (differentiable during training)
- Ablation tests other aggregations

### 5. sQI (Query-Instruction Similarity)
**Purpose**: Select best instruction for each query

```
┌─────────────────────────────────────────────┐
│      sQI (Query-Instruction Match)          │
├─────────────────────────────────────────────┤
│                                             │
│  Computes: sim(query, instruction_proto)    │
│                                             │
│  Final Selection:                           │
│    score(q, T, S) = sQI(q, T) + f(q, T, S)  │
│                                             │
│  Best Instruction: argmax_T score(q, T, S)  │
└─────────────────────────────────────────────┘
```

