Deep Learning for Educational Video Analysis: Benchmarking and Pipeline Optimization

Deep Learning for Educational Video Analysis: Benchmarking and Pipeline Optimization

MathAI 2026 Conference Submission123 Authors

19 Feb 2026 (modified: 07 Mar 2026)MathAI 2026 Conference SubmissionEveryoneRevisionsBibTeXCC BY 4.0

Keywords: deep learning, speech recognition, educational video, transcription, pipeline optimization, cost optimization

TL;DR: After benchmarking seven ASR APIs on 900+ hours of lectures, we built a pipeline that transcribes, summarizes, and generates questions for educational videos 21× faster at under 6 RUB per hour.

Abstract: This paper presents a systematic comparative analysis of deep learning models for educational video transcription and structuring. We evaluate seven commercial speech recognition APIs on a corpus of over 700 lecture recordings exceeding 900 hours total duration, spanning multiple disciplines. The Whisper-v3-turbo model achieves the optimal balance between quality and cost, outperforming alternatives by a factor of 3–18 while maintaining comparable word error rates. Audio preprocessing techniques–silence suppression, noise gating, and dynamic range compression–yield additional cost reductions of 10–25% with negligible accuracy loss. We evaluate a prompt-based domain adaptation mechanism (Video vocabulary) that reduces terminology errors without expensive fine-tuning. Based on these findings, we implement a parallelized processing pipeline that reduces end-to-end turnaround time from over 30 minutes of manual effort to under 2 minutes per recording, enabling simultaneous processing of up to 50 recordings. Experimental results demonstrate 21.4 × acceleration at 5.93 RUB per hour of content for transcription, topic extraction, and pedagogical enrichment (summaries, open-ended questions). The system is deployed in production, confirming its practical utility for educational institutions.

Submission Number: 123

Loading