شرکت OpenAI بدون شک مهمترین بازیگر در حوزه هوش مصنوعی محسوب میشود و موفق شده برتری خود را نسبت به رقبا حفظ کند. این شرکت به تازگی مدل هوش مصنوعی GPT-4o را معرفی کرده که نسبت به نسخه قبلی جذابیتهای زیادی دارد. در این مطلب به مهمترین تفاوتهای این مدل میپردازیم.
هوش مصنوعی GPT-4o در مقابل GPT-4 Turbo و GPT-3.5
به طور خلاصه، GPT-4 به طور قابل توجهی باهوشتر از GPT-3.5 است. این مدل میتواند ظرایف بیشتری را درک کند، نتایج دقیقتری تولید کند و بسیار کمتر دچار توهمات هوش مصنوعی میشود. با این حال، GPT-3.5 همچنان به دلیل سرعت بالا، در دسترس بودن رایگان و توانایی انجام بسیاری از کارهای روزمره با سهولت، مدل بسیار مفیدی است. البته به شرطی که این نکته را در نظر داشته باشید که احتمال ارائه اطلاعات نادرست توسط آن، بسیار بیشتر است.
GPT-4 Turbo تا پیش از ورود GPT-4o، مدل پرچمدار محسوب میشد. دسترسی به این مدل تنها برای مشترکین چتگپت پلاس امکانپذیر بود و با امکاناتی نظیر مدلهای شخصیسازیشده GPT و دسترسی به وب ارائه میشد. قبل از اینکه به قابلیتهای مدل هوش مصنوعی GPT-4o بپردازیم باید بگوییم که بر اساس اعلام OpenAI، هزینه استفاده از API این مدل جدید نصف GPT-4 است و ۲ برابر سرعت آن را در اختیار شما قرار میدهد. به همین دلیل است که GPT-4o هم برای کاربران رایگان و هم برای کاربران پولی در دسترس قرار دارد. با این حال کاربران پولی میتوانند ۵ برابر بیشتر از این مدل استفاده کنند و این یعنی در طول روز با محدودیت استفاده بسیار کمتری روبرو میشوند.
با وجود اینکه این مدل از نظر هوش تفاوت خاصی با GPT-4 Turbo ندارد، اما مهمترین تغییر آن، کارایی بهتر است.
مدل هوش مصنوعی GPT-4o چه کارهایی را میتواند انجام دهد؟
کلمه کلیدی مهم در مورد GPT-4o «چندوجهی» بودن آن است، یعنی اینکه این مدل میتواند با صدا، تصویر، ویدیو و متن کار کند. البته مدل قبلی، GPT-4 توربو، نیز همین قابلیت را داشت، اما در GPT-4o این موضوع به شکل کاملاً متفاوتی پیادهسازی شده است.
OpenAI میگوید که یک شبکه عصبی واحد را روی همه این حالتها (صدا، تصویر، ویدیو و متن) به طور همزمان آموزش داده است. در مدل قدیمیتر GPT-4 توربو، زمانی که از حالت صوتی استفاده میکردید، ابتدا یک مدل، گفتار شما را به متن تبدیل میکرد. سپس GPT-4 آن متن را تفسیر کرده و به آن پاسخ میداد و در نهایت پاسخ به صورت یک صدای مصنوعی به شما ارائه میشد.
در مدل هوش مصنوعی GPT-4o همه این فرایندها در یک مدل واحد انجام میگیرد که این موضوع منجر به بهبود عملکرد و قابلیتهای آن میشود. OpenAI ادعا میکند که زمان پاسخگویی هنگام مکالمه با GPT-4o اکنون تنها چند صد میلیثانیه است، یعنی تقریباً همزمان با یک مکالمه واقعی با فرد دیگری. این را با ۳ تا ۵ ثانیهای که مدلهای قدیمیتر برای پاسخگویی نیاز داشتند مقایسه کنید تا متوجه پیشرفت قابل توجه آن شوید.
این سرعت بالا به غیر از اینکه باعث کارایی بیشتر میشود، به این معنی است که GPT-4o اکنون میتواند عناصر غیرکلامی گفتار مانند لحن صدا را نیز تفسیر کند و پاسخهای آن نیز دارای طیف وسیعی از احساسات باشد. حتی میتواند آواز بخواند! به عبارت دیگر، OpenAI به GPT-4o تواناییهایی در زمینه پردازشهای عاطفی (Affective Computing) بخشیده است.
همین کارایی و یکپارچگی در مورد متن و تصویر و همچنین ویدیو نیز وجود دارد. در یکی از نمایشهای GPT-4o، این مدل در حال مکالمه بلادرنگ با یک فرد با استفاده از ویدیو و صدای زنده نشان داده میشود. به نظر میرسد که GPT-4o درست مانند یک چت تصویری با یک انسان میتواند آنچه را که از طریق دوربین میبیند تفسیر کند و استنتاجات بسیار دقیقی انجام دهد. همچنین ChatGPT-4o در مقایسه با مدلهای قبلی میتواند تعداد بسیار بیشتری از نشانهها (توکنها) را در ذهن خود نگه دارد، به این معنی که میتواند هوش خود را در مکالمات بسیار طولانیتر و حجم زیادی از دادهها به کار گیرد. این موضوع به احتمال زیاد باعث مفیدتر شدن آن برای کارهایی مانند کمک به شما در نوشتن رمان خواهد شد.
اکنون، در زمان نوشتن این متن، هنوز همه این ویژگیها برای عموم مردم در دسترس نیستند، اما OpenAI اعلام کرده است که آنها را در هفتههای پس از معرفی اولیه و انتشار مدل اصلی در اختیار عموم قرار خواهد داد.
هزینه مدل هوش مصنوعی GPT-4o چقدر است؟
دسترسی به GPT-4o برای کاربران رایگان و غیررایگان وجود دارد، اما کاربران غیررایگان پنج برابر حق استفاده بیشتری خواهند داشت. در حال حاضر، هزینه اشتراک ماهانه ChatGPT Plus همچنان ۲۰ دلار است و اگر توسعهدهنده هستید، باید با توجه به نیاز خود، هزینه API را بررسی کنید. با این حال، GPT-4o در مقایسه با سایر مدلها بسیار ارزانتر است.