کد مطلب: ۱۵۸۰۷

چالش دیگری برای OpenAI؛ محققان با کمتر از 50 دلار مدل هوش مصنوعی استدلال‌گر رایگان ساخته‌اند

این مدل از طریق فرایندی با نام «تقطیر» ساخته شده است که برای استخراج قابلیت‌های «استدلال» از یک مدل هوش مصنوعی دیگر کاربرد دارد.

تریبون اقتصاد_طی هفته‌های گذشته هوش مصنوعی چینی DeepSeek که با هزینه‌ای بسیار کمتر از مدل‌های آمریکایی ساخته شده باعث سقوط سهام شرکت‌های فناوری و بازارهای جهان شده بود. حالا محققان دانشگاه‌های استنفورد و واشنگتن در مقاله جدیدی ادعا کرده‌اند که با کمتر از 50 دلار موفق به ساخت یک مدل هوش مصنوعی استدلال‌گر رایگان مانند o1 از OpenAI شده‌اند.

به گزارش دیجیاتو، طبق گزارش‌های منتشر شده، این مدل که s1 نام دارد در تست‌هایی که توانایی آن در ریاضی و کدنویسی را اندازه‌گیری می‌کنند، مشابه مدل‌های استدلال‌گر پیشرفته مانند o1 و DeepSeek R1 عمل کرده است. هم‌اکنون مدل s1 به همراه داده‌ها و کد مورد استفاده برای آموزش آن در GitHub موجود است.

ساخت مدل هوش مصنوعی رایگان s1

محققان در مقاله خود می‌گویند که ابتدا یک مدل پایه را توسعه داده‌اند و سپس از طریق فرایندی با نام «تقطیر» که برای استخراج قابلیت‌های «استدلال» از یک مدل هوش مصنوعی دیگر کاربرد دارد، آن را تنظیم کرده‌اند. به گفته آنها، برای این فرایند از مدل جمینای 2.0 Flash Thinking Experimental گوگل کمک گرفته شده است.

به گفته محققان، آموزش s1 با 16 پردازنده گرافیکی انویدیا H100 کمتر از 30 دقیقه طول کشیده است و این مدل در برخی از بنچمارک‌های هوش مصنوعی به عملکرد بسیار خوبی دست یافته است.

تیم تحقیقاتی سازنده s1 در توسعه مدل خود به دنبال ساده‌ترین رویکرد برای دستیابی به عملکرد قدرتمند در استدلال و «مقیاس‌بندی زمان آزمون» بوده‌اند که مورد دوم به مدل هوش مصنوعی اجازه می‌دهد تا قبل از ارائه پاسخ بیشتر فکر کند. البته OpenAI نیز در مدل o1 خود به چنین پیشرفت‌هایی دست یافته بود و سپس DeepSeek و دیگر آزمایشگاه‌های هوش مصنوعی نیز سعی کرده‌اند تا آنها را از طریق تکنیک‌های مختلف مورد استفاده قرار دهند.

مقاله s1 نشان می‌دهد که مدل‌های استدلال‌گرا را می‌توان از طریق فرایندی به نام «تنظیم دقیق نظارت‌شده» (SFT) با یک مجموعه داده نسبتاً کوچک تقطیر کرد. در این فرایند به مدل هوش مصنوعی دستور داده می‌شود که رفتارهای خاصی را در یک مجموعه داده شبیه‌سازی کند. گفته می‌شود که فرایند SFT نسبت به روش یادگیری تقویتی که DeepSeek برای آموزش مدل R1 براساس o1 انجام داده، ارزان‌تر است.

مطالب پیشنهادی

بیشتر بخوانید

شوک ایران‌خودرو به بازار؛ حجم تولید آب رفت!