Google, GPT-4o’ya meydan okuyan yeni yapay zeka modellerini tanıttı
Google, yıllık geliştirici konferansı I/O’da, şirketin en hafif ve en verimli yapay zeka modelleri olarak adlandırdığı yeni modelleri duyurdu.
Gemini 1.5 Flash
Google I/O’da duyurulan ilk yeni model, Gemini serisinin en yeni üyesi Gemini 1.5 Flash oldu. Google yeni modelin konuşmaları hızlı bir şekilde özetleyebildiğini, resim ve videolara başlık ekleyebildiğini ve büyük belge ve tablolardan veri çıkarabildiğini söyledi. Google DeepMind CEO’su Demis Hassabis, basın brifinginde “Geliştiricilerden daha hızlı ve daha uygun maliyetli bir şey istediklerini duyduk” dedi.
Bu tanıtım, teknoloji şirketlerinin ürün geliştirme ve kullanıma sunma süreçlerini giderek daha fazla üretken yapay zeka etrafında yeniden odakladıkları bir dönemde gerçekleşti ve yeni araçlar tüketicilere geleneksel web aramasına kıyasla çevrimiçi bilgiye erişmek için daha gelişmiş ve yaratıcı yollar sunduğu için Google için özel bir önem taşıyor. Bilindiği gibi OpenAI da, Pazartesi günü yeni bir kullanıcı arayüzüyle birlikte ChatGPT’nin yeni bir yapay zeka modelini ve masaüstü sürümünü piyasaya sürdü. Şirket, GPT-4o olarak adlandırılan yeni modelin GPT-4 Turbo’dan iki kat daha hızlı ve yarı maliyetli olduğunu söylemişti. Şimdi Google, yeni modeliyle OpenAI’ye meydan okumayı amaçlıyor.
Gemini 1.5 Pro
Gemini’nin diğer bir yeni sürümü ise, birden fazla büyük belgeyi (toplam 1.500 sayfa) anlamlandırabilen veya 100 e-postayı özetleyebilen geliştirilmiş Gemini 1.5 Pro oldu. Google’da başkan yardımcısı ve Gemini deneyimleri genel müdürü olan Sissie Hsiao, Gemini 1.5 Pro’nun yakında bir saatlik video içeriğini veya 30.000 satırdan fazla kod tabanını işleyebileceğini söyledi.
Hsiao, “Kira sözleşmenizdeki evcil hayvan politikasının ayrıntılarını bulmak veya birden fazla uzun araştırma makalesinin temel argümanlarını karşılaştırmak gibi yoğun belgeler hakkında hızlı bir şekilde yanıtlar ve içgörüler elde edebilirsiniz” dedi.
Google, 35 dil ile Gemini 1.5 Pro’nun, bağlamı ölçen ve modelin bir kerede ne kadar bilgiyi işleyebileceğini gösteren 2 milyon belirteç penceresine sahip olduğunu söylüyor. Şirket yöneticileri, yeni modelin yerel muhakeme, planlama ve görüntü anlayışını geliştirdiğinin altını çiziyor.
Alphabet CEO’su Sundar Pichai ise, basın brifinginde Gemini 1.5 Pro için “Şimdiye kadar herhangi bir temel modelin en uzun bağlam penceresini sunuyor” dedi. Etkinlikte, Gemini’den çocuklarının okulundan gelen tüm son e-postaları özetlemesini isteyen bir ebeveyn örneğini verdi.
Gemini 1.5 Pro başlangıçta Workspace Labs’de test edilebilecek. Gemini 1.5 Flash ise Google’ın makine öğrenimi platformu olan ve geliştiricilerin yapay zeka uygulamalarını eğitip dağıtmasına olanak tanıyan Vertex AI’da test edilebilecek.
Google Veo
Google, Veo adlı kendi üretken video modeliyle ise OpenAI’nin Sora’sına yanıt veriyor. Veo’nun geliştirici konferansında duyurulmasıyla Google, OpenAI’nin bu yılın başlarında Şubat ayında ilk kez duyurduğu Sora’ya adeta meydan okuyor.
Google Deepmind’ın CEO’su Demis Hassabis, Veo’yu bugüne kadarki en yetenekli üretken video modeli olarak tanımlıyor. Veo, kullanıcıların metin istemleri, görüntü girdileri ve video istemleri kullanarak yüksek kaliteli (1080p’ye kadar) videolar oluşturmasına yardımcı olacak.
Ayrıca Google, Veo için “görsel stiller arasında duygusal nüansı yakalayan ve çarpıcı sinematik efektler üreten içerikler oluşturmanızı sağlar” diyor.
Sora sadece belirli geliştiricilere ve perde arkasındaki kullanıcılara sunulurken, Google kullanıcıların Veo’yu denemek için bir bekleme listesine kaydolmalarına izin veriyor. Veo’ya erişim, ABD’den başlayarak Google’ın yeni deneysel aracı VideoFX aracılığıyla sağlanacak.