AlignList Academy

Learn the language used by AI labs and labeling teams. Terms are ranked by relevance so you can focus on what improves real annotation performance first.

Human data startups & teams, partner with us

Showing 115 terms, sorted by relevance score (10 → 1).

Relevance 10/10

Adjudication

Adjudication resolves conflicting labels into a final canonical decision.

Quality and QA•Intermediate•7 min

Relevance 10/10

Annotation Guidelines

Annotation guidelines define exactly how to classify data, handle ambiguity, and escalate edge cases.

Operations and Workflow•Beginner•7 min

Relevance 10/10

Gold Set

A gold set is a verified benchmark set used to audit annotator quality.

Quality and QA•Beginner•6 min

Relevance 10/10

Inter-Annotator Agreement (IAA)

Inter-Annotator Agreement measures how consistently multiple annotators label the same sample using the same guideline.

Quality and QA•Intermediate•8 min

Relevance 10/10

Quality Assurance (QA) in Annotation Ops

QA in annotation operations combines audits, review policies, and feedback loops to maintain label quality.

Quality and QA•Beginner•7 min

Relevance 10/10

Reinforcement Learning from Human Feedback (RLHF)

RLHF uses human rankings and critiques to teach models preferred behavior.

Training Paradigms•Intermediate•9 min

Relevance 10/10

Supervised Fine-Tuning (SFT)

SFT trains models on high-quality human-curated instruction and response pairs.

Training Paradigms•Intermediate•8 min

Ambiguity Resolution

Ambiguity resolution handles uncertain cases through structured escalation instead of guessing.

Quality and QA•Intermediate•6 min

Calibration

Calibration aligns annotators on the same guideline interpretation before and during production.

Quality and QA•Intermediate•6 min

Edge Case

An edge case is a rare but valid sample that stresses normal labeling rules.

Quality and QA•Beginner•5 min

Fact-Checking for LLM Evaluation

Fact-checking verifies whether model claims are supported by trusted context or references.

Prompting and Evaluation•Intermediate•6 min

Hallucination

A hallucination is a plausible-looking model claim that is unsupported or false.

Prompting and Evaluation•Beginner•6 min

Instruction Following Evaluation

Instruction-following evaluation checks whether outputs satisfy explicit constraints from prompts.

Prompting and Evaluation•Intermediate•6 min

Preference Ranking

Preference ranking compares model outputs and selects the better answer using a rubric.

Prompting and Evaluation•Intermediate•7 min

Rubric-Based Evaluation

Rubric-based evaluation scores outputs across clear dimensions such as correctness, safety, and completeness.

Prompting and Evaluation•Intermediate•6 min

Safety Policy Enforcement

Safety policy enforcement labels and evaluates content against harm and misuse policy rules.

Safety and Policy•Intermediate•7 min

Taxonomy and Label Schema

A taxonomy defines classes and rules for assigning labels consistently.

Operations and Workflow•Intermediate•6 min

Acceptance Rate

Acceptance rate is the percentage of submitted work approved by review.

Quality and QA•Beginner•5 min

Active Learning

Active learning selects uncertain samples for annotation to improve model learning efficiency.

Operations and Workflow•Intermediate•5 min

Active Quality Monitoring

Active quality monitoring tracks quality metrics continuously during production.

Quality and QA•Intermediate•6 min

Bounding Box Annotation

Bounding box annotation draws rectangular boxes around target objects in images.

Computer Vision•Beginner•6 min

Class Imbalance

Class imbalance means some labels appear far less often than others.

Data and Metrics•Intermediate•5 min

Code Correctness Evaluation

Code correctness evaluation checks whether generated code satisfies requirements and expected behavior.

Prompting and Evaluation•Advanced•7 min

Confidence Scoring

Confidence scoring indicates how certain an annotator is about a decision.

Data and Metrics•Intermediate•5 min

Content Moderation Labeling

Content moderation labeling classifies content by policy categories and severity.

Safety and Policy•Beginner•6 min

Data Validation

Data validation checks labels and metadata against schema and quality constraints before export.

Operations and Workflow•Beginner•5 min

Dataset Versioning

Dataset versioning tracks schema, labels, and policy changes across releases.

Operations and Workflow•Intermediate•5 min

Error Analysis

Error analysis clusters failure patterns and identifies root causes.

Data and Metrics•Intermediate•6 min

Groundedness

Groundedness measures whether outputs are supported by provided context.

Prompting and Evaluation•Intermediate•6 min

Hate Speech Taxonomy

A hate speech taxonomy defines classes and scope for protected-target abuse labeling.

Safety and Policy•Intermediate•6 min

Human-in-the-Loop (HITL)

Human-in-the-loop workflows combine model automation with human review and correction.

Operations and Workflow•Beginner•5 min

Instruction Hierarchy Awareness

Instruction hierarchy awareness applies system and policy instructions before user preferences.

Prompting and Evaluation•Advanced•6 min

Intent Classification

Intent classification labels the underlying user goal in text or voice requests.

Text and NLP•Beginner•6 min

Jailbreak Detection

Jailbreak detection identifies prompts intended to bypass model safety constraints.

Safety and Policy•Advanced•7 min

Math Reasoning Evaluation

Math reasoning evaluation checks intermediate logic and final numeric correctness.

Prompting and Evaluation•Advanced•7 min

Misinformation Labeling

Misinformation labeling flags unsupported, deceptive, or manipulated claims.

Safety and Policy•Intermediate•6 min

Model Response Ranking Consistency

Ranking consistency measures whether similar response pairs receive similar judgments over time.

Prompting and Evaluation•Intermediate•6 min

Multi-Turn Dialogue Annotation

Multi-turn dialogue annotation labels conversational quality across turns, including coherence and policy compliance.

Text and NLP•Intermediate•7 min

Multilingual Annotation

Multilingual annotation applies label standards consistently across multiple languages.

Text and NLP•Intermediate•6 min

Named Entity Recognition (NER)

NER labels spans of text as people, organizations, locations, and other entity types.

Text and NLP•Intermediate•7 min

Pairwise Ranking

Pairwise ranking compares two candidate outputs and chooses the better one.

Prompting and Evaluation•Intermediate•6 min

PII Redaction

PII redaction finds and masks sensitive personal information.

Safety and Policy•Intermediate•6 min

Policy Violation Severity

Severity scoring measures how serious a policy violation is.

Safety and Policy•Intermediate•6 min

Policy-Compliant Refusal Writing

Policy-compliant refusal writing produces safe refusals that are clear, non-judgmental, and policy-aligned.

Prompting and Evaluation•Intermediate•6 min

Precision and Recall for Labelers

Precision measures correctness of predicted labels; recall measures coverage of true labels.

Data and Metrics•Intermediate•6 min

Privacy-Preserving Annotation

Privacy-preserving annotation minimizes exposure to sensitive data during labeling.

Safety and Policy•Intermediate•6 min

Prompt Engineering

Prompt engineering designs instructions to elicit reliable model behavior.

Prompting and Evaluation•Intermediate•6 min

Prompt Injection Detection

Prompt injection detection identifies attempts to override system behavior or safety constraints.

Safety and Policy•Advanced•8 min

Refusal Quality

Refusal quality evaluates whether unsafe requests are declined clearly and safely.

Prompting and Evaluation•Intermediate•6 min

Response Safety Grading

Response safety grading scores model outputs across defined safety risk dimensions.

Safety and Policy•Intermediate•6 min

Retrieval Ground Truth Curation

Retrieval ground truth curation builds high-quality relevance judgments for search and RAG evaluation.

Data and Metrics•Advanced•7 min

Reviewer Consistency

Reviewer consistency measures whether QA reviewers apply standards uniformly.

Quality and QA•Intermediate•6 min

Reward Model

A reward model predicts human preference signals from ranked examples.

Training Paradigms•Advanced•7 min

Root Cause Analysis

Root cause analysis identifies the underlying source of repeated quality failures.

Data and Metrics•Intermediate•6 min

Self-Harm Labeling

Self-harm labeling identifies risk-related content and intent levels.

Safety and Policy•Intermediate•6 min

Semantic Search Relevance Labeling

Semantic search relevance labeling scores whether retrieved items satisfy intent and context.

Prompting and Evaluation•Intermediate•6 min

Summarization Evaluation

Summarization evaluation scores summary faithfulness, coverage, and clarity.

Prompting and Evaluation•Intermediate•6 min

Toxicity Annotation

Toxicity annotation labels harmful or abusive language patterns.

Safety and Policy•Beginner•6 min

Transcription Quality

Transcription quality measures accuracy and formatting consistency in speech-to-text labels.

Audio and Speech•Beginner•6 min

3D Point Cloud Annotation

3D point cloud annotation labels LiDAR points and objects in spatial scenes.

Computer Vision•Advanced•8 min

Adversarial Example Awareness

Adversarial example awareness identifies inputs crafted to trigger model errors.

Safety and Policy•Advanced•6 min

Audio Event Labeling

Audio event labeling tags sounds such as alarms, music, speech, or environmental noise.

Audio and Speech•Beginner•6 min

Audit Trail

An audit trail records who changed labels, when, and why.

Operations and Workflow•Intermediate•5 min

Benchmark Contamination

Benchmark contamination means evaluation data was seen during training or tuning.

Data and Metrics•Advanced•6 min

Chain of Verification

Chain of verification validates outputs through structured checks instead of single-pass acceptance.

Prompting and Evaluation•Advanced•7 min

Citation Quality

Citation quality evaluates whether references are relevant, valid, and correctly used.

Prompting and Evaluation•Intermediate•6 min

Code Review Annotation

Code review annotation labels code quality issues such as bugs, style violations, and security concerns.

Prompting and Evaluation•Advanced•7 min

Context Window Adherence

Context window adherence checks whether responses use available context without ignoring key evidence.

Prompting and Evaluation•Intermediate•5 min

Conversation Coherence Scoring

Coherence scoring evaluates whether responses remain logically consistent with prior turns.

Prompting and Evaluation•Intermediate•6 min

Coreference Annotation

Coreference annotation connects mentions that refer to the same entity across text.

Text and NLP•Advanced•7 min

Data Augmentation

Data augmentation creates modified examples to improve model robustness.

Training Paradigms•Intermediate•6 min

Disagreement Mining

Disagreement mining identifies and analyzes patterns where annotators frequently diverge.

Quality and QA•Intermediate•6 min

Document Classification

Document classification assigns documents to categories based on content.

Text and NLP•Beginner•5 min

Entity Linking

Entity linking maps entity mentions to canonical knowledge base entries.

Text and NLP•Intermediate•6 min

Error Bucketing

Error bucketing groups failures into standardized categories for analysis.

Data and Metrics•Intermediate•5 min

Escalation Policy

Escalation policy defines when and how uncertain or high-risk items should be routed for review.

Operations and Workflow•Beginner•5 min

Escalation Rationale Writing

Escalation rationale writing documents why a sample was escalated and what evidence supports uncertainty.

Operations and Workflow•Beginner•5 min

Guideline Drift Detection

Guideline drift detection identifies when annotator behavior diverges from current written policy.

Quality and QA•Intermediate•6 min

Hard Negative Mining

Hard negative mining collects confusing non-target examples that models frequently misclassify.

Data and Metrics•Advanced•6 min

Harmlessness Score

Harmlessness scoring measures risk reduction in model responses.

Safety and Policy•Intermediate•6 min

Helpfulness Score

Helpfulness scoring measures whether output is useful, clear, and actionably relevant.

Prompting and Evaluation•Intermediate•6 min

Honesty Score

Honesty scoring checks whether the model states uncertainty and avoids fabricated certainty.

Prompting and Evaluation•Intermediate•6 min

Label Leakage

Label leakage occurs when target information unintentionally appears in features or prompt context.

Data and Metrics•Advanced•6 min

Linguistic Quality Assurance

Linguistic QA audits grammar, style, and semantic integrity in language data.

Text and NLP•Intermediate•6 min

Locale Sensitivity Labeling

Locale sensitivity labeling evaluates cultural and regional appropriateness of outputs.

Text and NLP•Intermediate•6 min

Long-Context Evaluation

Long-context evaluation tests whether models use and retain relevant information across large context windows.

Prompting and Evaluation•Advanced•7 min

Model-Assisted Prelabeling

Model-assisted prelabeling generates initial labels for human correction.

Operations and Workflow•Intermediate•6 min

OCR Annotation

OCR annotation labels text regions and transcriptions in images and documents.

Computer Vision•Beginner•6 min

Ontology Alignment

Ontology alignment maps concepts across different schemas or taxonomies.

Operations and Workflow•Advanced•7 min

Post-Editing Workflow

Post-editing workflow improves machine-generated outputs through human edits.

Operations and Workflow•Beginner•5 min

Quality-Weighted Sampling

Quality-weighted sampling prioritizes samples based on expected quality impact.

Operations and Workflow•Advanced•6 min

Rejection Sampling

Rejection sampling keeps model outputs that pass quality criteria and discards low-quality outputs.

Training Paradigms•Advanced•6 min

Relation Extraction Labeling

Relation extraction labeling marks semantic relationships between entities.

Text and NLP•Advanced•7 min

Reviewer Feedback Quality

Reviewer feedback quality measures clarity, actionability, and consistency of reviewer comments.

Quality and QA•Intermediate•5 min

Rubric Drift

Rubric drift occurs when evaluators gradually apply scoring criteria inconsistently over time.

Quality and QA•Intermediate•6 min

Schema Coverage Analysis

Schema coverage analysis checks whether all classes are sufficiently represented in labeled data.

Data and Metrics•Intermediate•6 min

Schema Migration

Schema migration transitions labeling data from one taxonomy version to another.

Operations and Workflow•Intermediate•6 min

Slot Filling Annotation

Slot filling labels parameter values tied to an intent, such as date, location, or product.

Text and NLP•Intermediate•6 min

Speaker Diarization Labeling

Speaker diarization labeling identifies who spoke when in audio streams.

Audio and Speech•Intermediate•7 min

Task Routing Optimization

Task routing optimization assigns work to annotators based on skill, language, and quality profiles.

Operations and Workflow•Advanced•6 min

Tool Use Evaluation

Tool use evaluation scores how accurately models decide when and how to invoke external tools.

Prompting and Evaluation•Advanced•7 min

Train-Test Contamination

Train-test contamination happens when overlapping information appears in both training and evaluation sets.

Data and Metrics•Advanced•6 min

Translation Quality Estimation

Translation quality estimation scores adequacy and fluency of translated outputs.

Text and NLP•Intermediate•6 min

Uncertainty Sampling

Uncertainty sampling selects instances where model confidence is low for human annotation.

Operations and Workflow•Intermediate•6 min

Video Event Annotation

Video event annotation labels actions and events over time in video streams.

Computer Vision•Intermediate•7 min

Weak Supervision

Weak supervision uses imperfect labeling signals such as heuristics or programmatic rules.

Training Paradigms•Advanced•7 min

Adjudication Latency

Adjudication latency is the turnaround time to resolve disputed labels.

Operations and Workflow•Intermediate•5 min

Annotation Cost per Accepted Label

This metric estimates effective cost after accounting for rejected or reworked labels.

Operations and Workflow•Intermediate•5 min

Annotation Throughput

Annotation throughput measures volume completed over time at target quality.

Operations and Workflow•Beginner•5 min

Appeal Workflow

Appeal workflow defines how annotators can contest review outcomes and receive clarifications.

Operations and Workflow•Beginner•5 min

Deduplication

Deduplication removes exact duplicate samples from datasets.

Operations and Workflow•Beginner•5 min

Differential Privacy Awareness

Differential privacy awareness means understanding privacy-preserving techniques that limit individual data exposure.

Safety and Policy•Advanced•6 min

Frame-Level Classification

Frame-level classification assigns labels to individual video frames.

Computer Vision•Beginner•5 min

Near-Duplicate Detection

Near-duplicate detection finds highly similar samples that are not exact matches.

Operations and Workflow•Intermediate•6 min

Temporal Consistency Labeling

Temporal consistency labeling checks whether labels remain consistent across time-linked events or frames.

Data and Metrics•Advanced•6 min