Anthropic'ten agentic kodlama ve görsel muhakeme performansıyla öne çıkan yeni model: Claude Opus 4.7

4 saat önce 4

Anthropic, yepyeni yapay zeka modeli Claude Opus 4.7'yi kullanıma sundu. Anthropic'in belirttiğine göre, Claude Opus 4.7'nin yazılım mühendisliği, talimatları takip etme ve gerçek dünyadaki işleri tamamlama başlıksunda daha iyice icra gösteriyor.

Yeni model, agentic kodlama, çok disiplinli akıl yürütme, ölçeklendirilmiş araç kullanımı ve agentic malumatsayar kullanımı için endüstri benchmarklarında ve birçok kullanım senaryosunda Claude Opus 4.6'dan daha iyice icra gösteriyor.

SWE-Bench Pro programlama ölçütünde (benchmark) yüzde 64,3 puan saha Opus 4.7, Opus 4.6'dan neredeyseymiş yüzde 10 daha yüksek tek sonuç ile karşımıza çıkıyor. Yeni modeller ayrıca, komut satırını içeren kodlama güçluklarından oluşan Terminal-Bench 2.0 bilgi setindeki görevlerin daha fazlasını çözdü.

Her ne kadar Anthropic, Opus 4.7'yi yaygınlaşan olarak şimdiki en güçlü modeli olarak tanımlasa da modelin siber yetenekleri, Anthropic'in bu ayın başlarında Project Glasswing adlı yepyeni tek siber güvenlik girişiminin parçası olarak seçilen tek cemaat şirkete sunduğu Claude Mythos Preview kadar gelişmiş değil. Şirket, bu LLM'nin hackerlar tarafından kötüye kullanılabileceği endişesiyle onu geniş çapta kullanıma sunmadı.

Opus 4.7 ise modeli siber saldırılar için kullanma girişimlerini belirleme eden tek mekanizmaya sahip. Anthropic'e göre, şirketin mühendisleri bu mekanizmanın tesirnliği hakkında bilgi toplayacak. Elde edilen bulgular ise Mythos için himaye önlemleri oluşturmak üzere kullanılacak. Şirket, bu himaye önlemleri sayesinde “Mythos sınıfı modelleri”ni müşterilere güvenli tek şekilde açabilmesini sağlayabilir. Ayrıca Anthropic, Siber Doğrulama Programı içerikında siber güvenlik uzmanlarının hesaplarındaki güvenlik önlemlerini gevşetecek ve daha geniş tek komut yelpazesinin kullanılmasına müyalın edecek.

Yine da Opus 4.7'nin, bazı görevleri Mythos kadar iyice tek performansla seçenek getirdiğini belirtelim. Opus 4.7, lisansüstü düzeyde ilim suallarından oluşan GPQA Diamond testinde, en iyice modelin puanına yüzde 1'lik tek farkla yaklaştı. Öte yandan OpenAI'ın GPT-5.4’ü, LLM’lerin çevrimiçi araştırma becerilerini testleri etmek için tasarlanmış tek benchmark olan BrowseComp’ta Mythos’un puanını aşmayı başardı.

Claude Opus 4.7, Anthropic'in tüm Claude ürünlerinde kullanılabilirken, API'sinde Microsoft, Google ve Amazon gibi gökyüzü sağlayıcıları aracılığıyla kullanılabilir. Anthropic'in belirttiğine göre; yepyeni modelin fiyatı Claude Opus 4.6 ile aynı.

Anthropic, Claude Opus 4.7 ile beraber birbirinden farklı yenilikler tanıttı. Şirket, API tarafında geliştiricilerin büyük diller modelleri için belirleyebildiği "effort level" (çaba seviyesi) parametresine şimdiki en yüksek ve sonuncu en yüksek kademenin arasına yerleşen xhigh adlı yepyeni tek seçenek ekledi; bu sayede kalite–maliyet dengesinin daha inceliği ayarla kurulabileceği belirtiliyor.

Anthropic, aynı zamanda Claude'un tek görevde işleyebileceği maksimum token sayısını önceden tanımlamaya olanak tanıyan "task budgets" (görev bütçeleri) özelliğini da devreye aldı.

Bunların yanı sıra Claude Code'a, tek şifre dosyasını yanlışlı ve olası sualnlar için tarayan ultrareview slash komutu eklendi; Max abonesi kullanıcılar bu özelliği, uzunluğu soluklu programlama görevlerini hızlandıran yepyeni auto modlar otomasyonuyla birlikteki kullanabiliyor.

>> Tüm Makaleyi Oku <<

Platformumuz; Teknoloji, Spor, Sağlık, Eğlence, Uluslararası, Edebiyat, Bilim ve daha fazlası olmak üzere farklı konu başlıkları altında, kısa ve öz haber formatı ile kullanıcıların zamandan tasarruf etmesini hedefler. Karmaşadan uzak, sade ve anlaşılır içerik yapısı sayesinde ziyaretçiler aradıkları bilgiye hızlıca ulaşabilir. techforum.com.tr, bilgi kirliliğini önleyerek yalnızca güvenilir kaynaklardan elde edilen içerikleri yayınlamaya özen gösterir.

Anthropic'ten agentic kodlama ve görsel muhakeme performansıyla öne çıkan yeni model: Claude Opus 4.7

İlgili

Samsung Galaxy A27'nin Tasarımı Ortaya Çıktı

OpenAI, Biyolojik Araştırmaları ve İlaç Geliştirme Süreçleri...

Maxi Mobilite, 225 Bin Dolar Yatırım Aldı

MediaMarkt Türkiye, 300 milyon TL’lik ceza hakkında açıklama...

Google Gemini Mac uygulaması çıktı! Siri’ye elveda!

Intel dizüstü oyun bilgisayarlarında fan gürültüsünü azaltan...

PUBG Mobile Türkiye’den okul saldırılarına yönelik açıklama...

iPhone 18 Pro serisi bu renk seçenekleriyle sunulabilir

Construction Simulator: Evolution Duyuruldu

Amazon’dan alınan Ryzen 9 9950X3D işlemci şok etti içi tamam...

Factory, 1.5 milyar dolar değerlemeyle 150 milyon dolar yatı...

Yapay zekâ ile üretilen hasar fotoğrafları sigorta sistemini...

Çin Derin Deniz Kablolarını Kesebilen Yeni Nesil Su Altı Tek...

YouTube Shorts’ları Kaldırmaya İzin Veriyor

Trendler

Popüler

Assassin’s Creed Black Flag Resynced Ubisoft Başlatıcısında ...

Unutulmaz Canavar Serisinin Yeni Filmi Yoğun Korku Dozuyla 2...

İsmail Ege Şaşmaz kariyerinde bir ilki yaşadı

Netflix, Yeni Animasyonu "Charlie vs. The Chocolate Factory"...

Kahramanmaraş’taki okul saldırganının poligonda atış yaptığı...

Samsung Gazı Köklüyor: Galaxy S27 Ultra Performansta Seviye ...

Jason Statham’ın Listeleri Fetheden Aksiyon Filminin Devam M...

Hakkında yakalama kararı bulunuyordu: İngiltere sokaklarında...

Metro 2039 duyuru videosu geldi! - Çok daha karanlık bir ger...

ARC Raiders kan kaybediyor: Steam oyuncu sayısı neden hızla ...

Sosyal medyanın kurtardığı film, Coyote vs. Acme'den ilk vid...

Lizbon Sokaklarında Yeni Bir Başlangıç: Cansu Dere'li "Porte...

Hades 2 yeni nesil konsollara geldi

Kahramanmaraş'ta okul saldırısında ölen Kerem ön sırada otur...

Motosikletle trafikte ön kaldırdı, sürücü belgesine el konul...