نکات کلیدی
۱. یادگیری عمیق با کمینهسازی تابع زیان از دادهها میآموزد
در این مرحله، آموزش مدل شامل یافتن مقداری w∗ است که تابع زیان ℒ(w∗) را کمینه میکند.
یادگیری از دادهها. یادگیری عمیق، شاخهای از یادگیری ماشین، بر مدلهایی تمرکز دارد که مستقیماً از دادهها نمایههایی میآموزند. به جای کدنویسی دستی قوانین، مجموعهای از ورودیها و خروجیهای مطلوب جمعآوری میشود و سپس مدلی پارامتری آموزش داده میشود تا رابطه بین آنها را تقریب بزند. رفتار مدل توسط پارامترهای قابل آموزش که اغلب وزن نامیده میشوند، تنظیم میشود.
فرموله کردن کیفیت. هدف یافتن مقادیر پارامترهایی است که مدل را در پیشبینی دادههای دیدهنشده «خوب» کنند. این هدف با استفاده از تابع زیان ℒ(w) که میزان خطای مدل روی دادههای آموزشی را برای پارامترهای w اندازه میگیرد، رسمی میشود. توابع زیان رایج شامل میانگین مربعات خطا برای رگرسیون و آنتروپی متقاطع برای طبقهبندی است.
آموزش یعنی بهینهسازی. وظیفه اصلی آموزش یافتن پارامترهای بهینه w* است که این تابع زیان را کمینه میکنند. این فرایند بهینهسازی محور اصلی یادگیری عمیق است و انتخاب معماری مدل و تکنیکهای آموزش به شدت تحت تأثیر نیاز به انجام این کمینهسازی به صورت کارآمد و مؤثر، بهویژه برای دادههای پیچیده و با ابعاد بالا، قرار دارد.
۲. محاسبات کارآمد روی سختافزار تخصصی حیاتی است
واحدهای پردازش گرافیکی (GPU) نقش مهمی در موفقیت این حوزه داشتهاند، زیرا امکان اجرای چنین محاسباتی را روی سختافزاری مقرونبهصرفه فراهم کردهاند.
شتابدهی سختافزاری. یادگیری عمیق شامل محاسبات عظیمی است که عمدتاً عملیات جبر خطی روی دادههای بزرگ هستند. معماری موازی GPUها که در اصل برای گرافیک طراحی شده بود، بهخوبی برای این وظایف مناسب است و امکان یادگیری عمیق در مقیاس بزرگ را روی سختافزارهای در دسترس فراهم کرده است. تراشههای تخصصی مانند TPUها نیز این روند را بهینهتر کردهاند.
اهمیت سلسلهمراتب حافظه. محاسبات کارآمد روی GPU نیازمند مدیریت دقیق دادهها است. گلوگاه معمولاً انتقال داده بین حافظه CPU و GPU و همچنین درون سلسلهمراتب حافظه GPU است. پردازش دادهها در دستههایی که در حافظه سریع GPU جا میشوند، این انتقالها را به حداقل میرساند و امکان محاسبه موازی روی نمونهها را فراهم میکند.
تنسورها کلید هستند. دادهها، پارامترهای مدل و نتایج میانی به صورت تنسورها، آرایههای چندبعدی، سازماندهی میشوند. چارچوبهای یادگیری عمیق به طور مؤثر تنسورها را مدیریت میکنند و جزئیات حافظه سطح پایین را پنهان میسازند و عملیات پیچیدهای مانند تغییر شکل و استخراج را بدون کپیبرداری پرهزینه دادهها ممکن میسازند. این رویکرد مبتنی بر تنسور اساس دستیابی به توان محاسباتی بالا است.
۳. گرادیان نزولی و پسانتشار، موتور آموزش هستند
ترکیب این محاسبات با روش گرادیان نزولی، پسانتشار نامیده میشود.
کمینهسازی زیان. از آنجا که تابع زیان مدلهای عمیق معمولاً پیچیده و فاقد حل بسته ساده است، گرادیان نزولی الگوریتم اصلی بهینهسازی است. این روش با پارامترهای تصادفی شروع میکند و آنها را به صورت تکراری با برداشتن گامهای کوچک در جهت مخالف گرادیان زیان، که جهت بیشترین کاهش است، بهروزرسانی میکند.
بهروزرسانیهای تصادفی. محاسبه دقیق گرادیان روی کل دادهها از نظر محاسباتی سنگین است. گرادیان نزولی تصادفی (SGD) با استفاده از دستههای کوچک داده، تخمینی پرنوسان اما بدون سوگیری از گرادیان ارائه میدهد که امکان بهروزرسانیهای بیشتر پارامترها را با همان هزینه محاسباتی فراهم میکند. این روش دستهبندی کوچک استاندارد است و اغلب با بهینهسازهایی مانند Adam بهبود مییابد.
پسانتشار گرادیانها را محاسبه میکند. پسانتشار الگوریتمی است که به طور مؤثر گرادیان تابع زیان نسبت به تمام پارامترهای مدل را محاسبه میکند. این الگوریتم با استفاده از قاعده زنجیرهای حساب دیفرانسیل به صورت معکوس از لایههای شبکه عبور میکند و گرادیانها را لایه به لایه محاسبه میکند. این عبور معکوس همراه با عبور رو به جلو که خروجی مدل را محاسبه میکند، حلقه محاسباتی اصلی آموزش یادگیری عمیق را تشکیل میدهد.
۴. عمق و مقیاس، قابلیتهای قدرتمند را آزاد میکنند
شواهد تجربی فراوانی نشان میدهد که عملکرد... با افزایش دادهها طبق قوانین مقیاسبندی قابل توجه بهبود مییابد...
ارزش عمق. مدلهای عمیق که از لایههای متعدد تشکیل شدهاند، میتوانند نمایههای پیچیدهتر و سلسلهمراتبی نسبت به مدلهای کمعمق بیاموزند. اگرچه از نظر نظری یک شبکه تکلایه میتواند هر تابعی را تقریب بزند، اما معماریهای عمیق به طور تجربی عملکردی در سطح پیشرفته در حوزههای مختلف ارائه میدهند و معمولاً به دهها تا صدها لایه نیاز دارند.
قوانین مقیاسبندی. یافته مهم این است که عملکرد مدل معمولاً به طور قابل پیشبینی با افزایش مقیاس بهبود مییابد: دادههای بیشتر، پارامترهای بیشتر و محاسبات بیشتر. این موضوع روند ساخت مدلهای عظیمتر را که روی مجموعه دادههای بسیار بزرگ آموزش داده میشوند، تقویت کرده و به پیشرفتهایی مانند مدلهای زبان بزرگ منجر شده است.
مزایای مقیاس. مدلهای بزرگ با وجود ظرفیت عظیم خود، اغلب تعمیم خوبی دارند و مفاهیم سنتی بیشبرازش را به چالش میکشند. مقیاس آنها همراه با تکنیکهای آموزش توزیعشده مانند SGD روی دادههای عظیم، امکان یادگیری الگوها و دانش پیچیدهای را فراهم میکند که مدلهای کوچکتر قادر به آن نیستند، هرچند با هزینههای محاسباتی و مالی قابل توجه.
۵. مدلهای عمیق از لایههای قابل استفاده مجدد ساخته میشوند
لایهها عملیات پیچیده و مرکب تنسوری استانداردی هستند که به صورت تجربی به عنوان عمومی و کارآمد شناخته شدهاند.
اجزای مدولار. مدلهای عمیق با انباشتن یا اتصال انواع مختلف لایهها ساخته میشوند که عملیات تنسوری پارامتری و قابل استفاده مجدد هستند. این مدولار بودن طراحی مدل را ساده میکند و امکان ساخت معماریهای پیچیده از بلوکهای ساختمانی شناختهشده را فراهم میآورد.
انواع اصلی لایهها:
- خطی/کاملاً متصل: انجام تبدیلات آفاین (ضرب ماتریسی بهعلاوه بایاس).
- کانولوشنال: اعمال فیلترهای آفاین محلی و مشترک در ابعاد فضایی یا زمانی، که الگوهای محلی را میگیرند و نامتغیری ترجمهای را ممکن میسازند.
- توابع فعالسازی: افزودن غیرخطی بودن (مانند ReLU، GELU) که برای یادگیری نگاشتهای پیچیده ضروری است.
- پولینگ: کاهش اندازه فضایی با خلاصهسازی نواحی محلی (مانند ماکس پولینگ).
- لایههای نرمالسازی: تثبیت آموزش با نرمالسازی آمار فعالسازیها (مانند Batch Norm، Layer Norm).
- دراپاوت: تنظیم مدل با صفر کردن تصادفی فعالسازیها در طول آموزش.
- اتصالات پرش: اجازه میدهند سیگنالها از لایهها عبور کنند و جریان گرادیان و آموزش شبکههای بسیار عمیق را تسهیل میکنند.
مهندسی برای بهینهسازی. بسیاری از طراحیهای لایه مانند اتصالات پرش و لایههای نرمالسازی به طور خاص برای کاهش چالشهای آموزش مانند مشکل ناپدید شدن گرادیان توسعه یافتهاند و تمرکز را از بهینهسازی عمومی به طراحی مدلهایی که ذاتاً آسانتر بهینه میشوند، منتقل کردهاند.
۶. مکانیزمهای توجه اطلاعات دور را به هم متصل میکنند
لایههای توجه به طور خاص این مشکل را با محاسبه امتیاز توجه برای هر جزء از تنسور خروجی نسبت به هر جزء از تنسور ورودی، بدون محدودیت محلی، حل میکنند...
فراتر از محلی بودن. در حالی که لایههای کانولوشنال در پردازش اطلاعات محلی بسیار خوب عمل میکنند، بسیاری از وظایف نیازمند ادغام اطلاعات از بخشهای دوردست سیگنال هستند، مانند درک وابستگی بین کلمات دور در جمله یا ارتباط اشیاء در بخشهای مختلف تصویر. لایههای توجه مکانیزمی برای این تعامل جهانی فراهم میکنند.
پرسش، کلید، مقدار. عملگر اصلی توجه امتیازهایی را محاسبه میکند که نشاندهنده ارتباط هر عنصر «پرسش» با هر عنصر «کلید» است، معمولاً با ضرب داخلی. این امتیازها سپس برای محاسبه میانگین وزنی عناصر «مقدار» استفاده میشوند، به طوری که هر پرسش میتواند به اطلاعات مرتبط در سراسر توالی ورودی «توجه» کند.
توجه چندسر. لایه توجه چندسر این قابلیت را با انجام چندین محاسبه توجه به صورت موازی («سرها») با تبدیلات خطی یادگرفته شده متفاوت برای پرسشها، کلیدها و مقدارها افزایش میدهد. نتایج این سرها به هم متصل و به صورت خطی ترکیب میشوند، که به مدل اجازه میدهد به طور همزمان به اطلاعات از زیرفضایهای مختلف نمایه در موقعیتهای متفاوت توجه کند. این مکانیزم پایه معماریهای مدرن مانند ترنسفورمر است.
۷. معماریهای کلیدی ساختارهای داده متفاوت را هدف میگیرند
معماری انتخابی برای چنین وظایفی که در پیشرفتهای اخیر یادگیری عمیق نقش اساسی داشته، ترنسفورمر است...
MLPها برای دادههای ساده. پرسپترون چندلایه (MLP)، انبوهی از لایههای کاملاً متصل با توابع فعالسازی، سادهترین معماری عمیق است. اگرچه از نظر نظری تقریبکنندههای جهانی هستند، اما برای دادههای ساختاریافته با ابعاد بالا به دلیل تعداد زیاد پارامترها و نبود گرایش القایی عملی نیستند.
شبکههای کانولوشنال برای دادههای شبکهای. شبکههای کانولوشنال (ConvNets) استاندارد برای دادههای شبکهای مانند تصاویر هستند. آنها با استفاده از لایههای کانولوشنال و پولینگ، نمایههای سلسلهمراتبی و نامتغیر ترجمهای میسازند که معمولاً با لایههای کاملاً متصل برای وظایفی مانند طبقهبندی پایان مییابند. معماریهایی مانند LeNet و ResNet (که اتصالات پرش برای عمق دارد) نمونههای برجستهاند.
ترنسفورمرها برای توالیها. ترنسفورمرها که عمدتاً بر پایه لایههای توجه ساخته شدهاند، برای دادههای توالی مانند متن و به طور فزایندهای برای تصاویر غالب شدهاند. توانایی آنها در مدلسازی وابستگیهای بلندمدت به صورت جهانی، همراه با کدگذاری موقعیتی برای حفظ ترتیب توالی، آنها را بسیار مؤثر ساخته است. ساختار رمزگذار-رمزگشا برای ترجمه و مدلهای فقط رمزگشا مانند GPT برای تولید، نمونههای کلیدی هستند.
۸. یادگیری عمیق در وظایف پیشبینی برجسته است
دسته اول کاربردها... نیازمند پیشبینی مقدار ناشناختهای از سیگنال موجود هستند.
نگاشت ورودی به خروجی. وظایف پیشبینی شامل استفاده از مدل عمیق برای برآورد مقدار یا دسته هدف بر اساس سیگنال ورودی است. این چارچوب کلاسیک یادگیری نظارتشده است که مدل روی جفتهای ورودی و خروجی واقعی آموزش داده میشود.
کاربردهای متنوع:
- طبقهبندی تصویر: اختصاص یک برچسب به تصویر (مانند ResNet، ViT).
- شناسایی اشیاء: تشخیص اشیاء و جعبههای محدودکننده آنها در تصویر (مانند SSD با شبکههای کانولوشنال).
- بخشبندی معنایی: طبقهبندی هر پیکسل در تصویر (معمولاً با شبکههای کانولوشنال و اتصالات پرش).
- شناخت گفتار: تبدیل سیگنال صوتی به متن (مانند مدلهای مبتنی بر ترنسفورمر مانند Whisper).
- یادگیری تقویتی: یادگیری اقدامات بهینه در محیط برای بیشینهسازی پاداش (مانند DQN با شبکههای کانولوشنال برای برآورد ارزش حالت-عمل).
استفاده از پیشآموزش. برای وظایفی با دادههای برچسبخورده محدود، مدلهای پیشآموزشدیده روی مجموعه دادههای بزرگ مرتبط (مانند طبقهبندی تصویر یا مدلسازی زبان) میتوانند بهصورت دقیقتر تنظیم شوند و عملکرد را به طور قابل توجهی بهبود بخشند.
۹. یادگیری عمیق امکان سنتز پیچیده را فراهم میکند
دسته دوم کاربردها که از پیشبینی متمایز است، سنتز است.
مدلسازی توزیع دادهها. وظایف سنتز شامل تولید نمونههای جدیدی است که شبیه دادههای آموزشی باشند. این نیازمند یادگیری توزیع احتمالی دادهها است، نه فقط نگاشت ورودی به خروجی.
تولید متن. مدلهای خودرگرسیو، بهویژه مدلهای بزرگ مبتنی بر ترنسفورمر مانند GPT، در تولید متن شبیه انسان بسیار موفقاند. این مدلها برای پیشبینی توکن بعدی در توالی آموزش دیدهاند و ساختارهای زبانی پیچیده و دانش جهان را میآموزند که امکان تولید متن منسجم و مرتبط با زمینه را فراهم میکند، از جمله قابلیتهای یادگیری چندنمونهای.
تولید تصویر. مدلهای انتشار (Diffusion) رویکرد قدرتمندی برای سنتز تصویر هستند. آنها فرایند تدریجی تخریب دادهها (مانند افزودن نویز) را معکوس میکنند که دادهها را به توزیع ساده تبدیل میکند. با شروع از نویز تصادفی و اعمال گامهای یادگرفته شده حذف نویز به صورت تکراری، تصاویر با کیفیت و متنوع تولید میکنند که اغلب میتوانند بر اساس توصیفات متنی یا ورودیهای دیگر شرطی شوند.
۱۰. این حوزه فراتر از مدلهای اصلی و یادگیری نظارتشده گسترش مییابد
چنین مدلهایی بخشی از دسته بزرگتری از روشها هستند که تحت عنوان یادگیری خودنظارتی شناخته میشوند و تلاش میکنند از دادههای بدون برچسب بهره ببرند.
فراتر از معماریهای استاندارد. در حالی که MLPها، شبکههای کانولوشنال و ترنسفورمرها برجستهاند، معماریهای دیگری نیز برای انواع دادههای مختلف وجود دارد، مانند شبکههای عصبی بازگشتی (RNN) برای توالیها که تاریخی مهم دارند و شبکههای عصبی گراف (GNN) برای دادههای غیرشبکهای مانند شبکههای اجتماعی یا مولکولها.
یادگیری نمایهها. اتوانکودرها، از جمله اتوانکودرهای واریاسیونال (VAE)، بر یادگیری نمایههای فشرده و معنادار دادهها تمرکز دارند که برای کاهش ابعاد یا مدلسازی مولد مفید است. شبکههای مولد تخاصمی (GAN) با فرایند رقابتی بین مولد و تشخیصدهنده نمونههای واقعی تولید میکنند.
یادگیری خودنظارتی. روند مهمی در استفاده از حجم عظیمی از دادههای بدون برچسب از طریق یادگیری خودنظارتی وجود دارد. مدلها روی وظایف کمکی آموزش میبینند که «برچسب» آنها به طور خودکار از دادهها استخراج میشود (مثلاً پیشبینی بخشهای ماسکشده ورودی). این پیشآموزش نمایههای عمومی قدرتمندی میآموزد که سپس میتوانند روی مجموعه دادههای برچسبخورده کوچکتر برای وظایف خاص تنظیم دقیق شوند و وابستگی به برچسبگذاری انسانی پرهزینه را کاهش دهند.
خلاصه نقدها
کتاب کوچک یادگیری عمیق عمدتاً با بازخوردهای مثبت مواجه شده و بهخاطر ارائهی خلاصهای موجز از مفاهیم یادگیری عمیق مورد تحسین قرار گرفته است. خوانندگان از قالب جمعوجور و اطلاعات فشردهی آن استقبال میکنند، هرچند برخی آن را برای مبتدیان کمی پیشرفته میدانند. این کتاب موضوعات بنیادین، شبکههای عصبی و معماریهای مدل را با نمودارهای واضح پوشش میدهد. اگرچه برخی خوانندگان با محتوای ریاضیاتی آن دچار دشواری میشوند، بسیاری آن را مرجعی ارزشمند میدانند. نسخهی رایگان PDF کتاب نیز بهعنوان هدیهای اندیشمندانه مورد توجه قرار گرفته است. برخی نقدها به کوتاهی کتاب اشاره دارند و پیشنهاد میکنند برای درک جامعتر، بهتر است همراه با منابع دیگر مطالعه شود.
دیگران نیز خواندهاند
سؤالات متداول
1. What is "The Little Book of Deep Learning" by François Fleuret about?
- Concise deep learning overview: The book provides a compact yet comprehensive introduction to deep learning, focusing on the foundational concepts, model architectures, and practical applications.
- Bridges theory and practice: It explains the mathematical and computational principles behind deep learning, including key algorithms, model components, and training protocols.
- Accessible for broad audience: Written to be approachable for readers with a basic background in mathematics and programming, it avoids unnecessary technical jargon and exhaustive detail.
- Focus on essential models: Rather than being encyclopedic, the book centers on the background needed to understand a few important deep learning models and their real-world impact.
2. Why should I read "The Little Book of Deep Learning" by François Fleuret?
- Efficient learning path: The book distills the vast field of deep learning into its most essential elements, making it ideal for readers who want a solid foundation without wading through excessive detail.
- Practical insights: It balances mathematical rigor with practical advice on model design, training, and implementation, making it useful for both students and practitioners.
- Up-to-date context: The book covers recent advances, such as attention mechanisms and large language models, situating them within the broader evolution of AI.
- Authoritative perspective: Authored by a university professor with deep expertise, it reflects both academic and applied viewpoints.
3. What are the key takeaways from "The Little Book of Deep Learning"?
- Deep learning fundamentals: Understanding of how deep learning models learn from data, the importance of model capacity, and the trade-offs between underfitting and overfitting.
- Model components and architectures: Clarity on the building blocks of deep models—layers, activations, normalization, attention, and skip connections—and how they are combined in architectures like MLPs, CNNs, and Transformers.
- Training and optimization: Insights into loss functions, gradient descent, backpropagation, and the challenges of scaling models and data.
- Applications and impact: Awareness of how deep learning is applied in image processing, natural language, reinforcement learning, and generative tasks, as well as the significance of large-scale models.
4. How does "The Little Book of Deep Learning" define and explain the foundations of machine learning and deep learning?
- Machine learning context: The book situates deep learning within the broader field of statistical machine learning, emphasizing learning representations from data.
- Model training process: It explains the process of collecting data, defining parametric models, and optimizing trainable parameters (weights) to minimize a loss function.
- Model categories: The book distinguishes between regression, classification, and density modeling, clarifying supervised and unsupervised learning.
- Overfitting and underfitting: It discusses the balance between model capacity and data, introducing the concepts of underfitting, overfitting, and inductive bias.
5. What are the main computational tools and techniques discussed in "The Little Book of Deep Learning"?
- Hardware acceleration: The book highlights the role of GPUs and TPUs in enabling large-scale deep learning through parallel computation and efficient memory management.
- Tensors as core data structure: It explains how tensors generalize vectors and matrices, serving as the primary data structure for signals, parameters, and activations.
- Batch processing: The importance of organizing computations in batches to maximize hardware efficiency and minimize memory transfer overhead is emphasized.
- Deep learning frameworks: The book references tools like PyTorch and JAX, which facilitate tensor operations and automatic differentiation.
6. How does "The Little Book of Deep Learning" describe the process of training deep models?
- Loss functions: The book covers standard losses for regression (mean squared error), classification (cross-entropy), and contrastive learning.
- Gradient descent and variants: It details the use of gradient descent, stochastic gradient descent (SGD), and advanced optimizers like Adam for parameter updates.
- Backpropagation: The chain rule is used to compute gradients efficiently through forward and backward passes, with frameworks automating this process.
- Training protocols: The book discusses the use of training, validation, and test sets, learning rate schedules, and the challenges of overfitting and scaling.
7. What are the key model components and layers explained in "The Little Book of Deep Learning"?
- Linear and convolutional layers: The book explains fully connected (linear) layers and convolutional layers, including their parameters, meta-parameters, and roles in feature extraction.
- Activation functions: It covers non-linearities like ReLU, Tanh, Leaky ReLU, and GELU, highlighting their impact on model expressiveness and training dynamics.
- Pooling and dropout: Pooling layers (max and average) reduce spatial dimensions, while dropout introduces regularization by randomly zeroing activations.
- Normalization and skip connections: Batch normalization and layer normalization stabilize training, while skip and residual connections help mitigate vanishing gradients and enable deeper networks.
8. How does "The Little Book of Deep Learning" explain attention mechanisms and their importance?
- Attention operator: The book details how attention computes weighted combinations of input features, allowing models to focus on relevant parts of the data regardless of position.
- Multi-head attention: It describes how multiple attention heads capture diverse relationships in the data, forming the backbone of Transformer architectures.
- Self-attention and cross-attention: The distinction between self-attention (within a sequence) and cross-attention (between sequences) is clarified, with applications in language and vision.
- Positional encoding: Since attention is position-agnostic, the book explains how positional encodings are added to retain order information in sequences.
9. What are the main deep learning architectures covered in "The Little Book of Deep Learning"?
- Multi-Layer Perceptrons (MLPs): The book introduces MLPs as stacks of fully connected layers, referencing the universal approximation theorem.
- Convolutional Neural Networks (CNNs): It covers classic architectures like LeNet, VGG, and ResNet, explaining the use of convolutional, pooling, and residual blocks.
- Transformers: The book provides a detailed breakdown of the Transformer architecture, including encoder-decoder structure, self-attention, and its variants like GPT and Vision Transformer (ViT).
- Design trade-offs: It discusses how different architectures are suited to different tasks, balancing accuracy, scalability, and computational cost.
10. How does "The Little Book of Deep Learning" address real-world applications of deep learning?
- Image processing: The book covers image denoising, classification, object detection, and semantic segmentation, explaining the architectures and training strategies for each.
- Speech and language: It discusses speech recognition as sequence-to-sequence translation using Transformers, and text-image representation learning with models like CLIP.
- Reinforcement learning: The Deep Q-Network (DQN) is presented as an example of applying deep learning to decision-making tasks like Atari games.
- Generative models: The book explores text generation with large language models (LLMs) and image generation using diffusion models.
11. What are the benefits and challenges of scaling deep learning models, according to "The Little Book of Deep Learning"?
- Scaling laws: The book presents empirical evidence that model performance improves predictably with increased data, model size, and computation, as long as they scale together.
- Hardware and data constraints: It discusses the need for massive computational resources (GPUs/TPUs) and large, often automatically curated datasets to train state-of-the-art models.
- Training costs: The financial and energy costs of training large models are highlighted, with some models requiring months of computation and millions of dollars.
- Overfitting paradox: Despite their extreme capacity, large models often generalize well, possibly due to inductive biases and the nature of optimization at scale.
12. What advanced topics and future directions does "The Little Book of Deep Learning" mention?
- Missing bits: The book briefly introduces topics not covered in depth, such as Recurrent Neural Networks (RNNs), Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), and Graph Neural Networks (GNNs).
- Self-supervised learning: It highlights the trend toward leveraging unlabeled data through self-supervised tasks, which underpin the success of large language and vision models.
- Fine-tuning and RLHF: The importance of fine-tuning large models for specific tasks, often using Reinforcement Learning from Human Feedback, is discussed.
- Ongoing evolution: The book acknowledges the rapid pace of innovation in deep learning, suggesting that new architectures and training paradigms will continue to emerge.