Samsung Electronics, yapay zekâ verimliliğini kıymetlendirmek üzere Samsung Research tarafından geliştirilen tescilli benchmark tahlili TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük lisan modellerinin (LLM’ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini ölçen kapsamlı bir metrik seti sunuyor. Tahlil, gerçekçi bir kıymetlendirme sağlamak için çeşitli diyalog senaryoları ve çok lisanlı şartlardan faydalanıyor. Samsung’un verimlilik çalışmalarında kullandığı kendi yapay zekâ teknolojilerini temel alan TRUEBench, içerik oluşturma, data tahlili yapma, özet çıkarma ve çeviri yapma üzere yaygın kullanılan kurumsal vazifeleri 10 temel kategori ve 46 alt kategoride pahalandırıyor. Benchmark, yapay zekâ dayanaklı otomatik değerlendirmeler yaparak misyonlara muteber bir puanlama veriyor. Bu değerlendirmeler, insan ve yapay zekâ iş birliği içinde tasarlanan ve geliştirilen kriterlere dayanıyor.
Samsung Electronics Dijital Tecrübeler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünyadaki yapay zekâ tecrübeleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench’in üretkenlik işlerinde kıymetlendirme standartları oluşturacağına ve Samsung’un teknolojideki liderliğini daha da güçlendireceğine inanıyoruz” dedi.
Son vakitlerde şirketler yapay zekâyı daha çok benimsedikçe büyük lisan modellerinin üretkenliğini ölçme talebinde artış yaşanıyor. Lakin, çoğunlukla İngilizce odaklı olan mevcut kriterler öncelikle genel performansı ölçüyor ve tek çeşitten oluşan soru-cevap prosedürleriyle hudutlu bir kıymetlendirme yapıyor. Bu durum, bu değerlendirmelerin gerçek çalışma ortamlarını yansıtma doğruluğunu sonlandırıyor. Bu sınırlamaları kaldırmak için geliştirilen TRUEBench hem 10 kategori ve 12 lisanda çalışan 2.485 test setinden oluşuyor hem de lisanlar ortası senaryoları destekliyor. Test setleri, yapay zekâ modellerinin gerçekte hangi noktalara tahlil sunabileceğini inceliyor. Samsung Research’in geliştirdiği TRUEBench, kolay taleplerden uzun evrakları özetlemeye kadar çeşitli vazifeleri inceliyor ve içeriği 8 karakterden 20.000 karakterin üzerine kadar değişen test setleri uyguluyor.
Yapay zekâ modellerinin performansını değerlendirirken yapay zekâ tarafından sağlanan cevapların gerçek olup olmadığını anlamaya imkân veren net kriterlere sahip olmak büyük değer taşıyor. Gerçek ömür senaryolarında, kullanıcıların tüm istekleri, talimatlarda açıkça belirtilmeyebiliyor. Bu nedenle TRUEBench, sadece cevapların doğruluğunu değil tıpkı vakitte kullanıcıların örtük gereksinimlerini gözeten detaylı şartları da dikkate alıyor ve gerçekçi değerlendirmeler yapıyor.
Gerçek beşerler ile yapay zekâ iş birliğiyle kıymetlendirme öğelerini doğrulayan Samsung Research tahlilinde, birinci olarak, gerçek yorumcular kıymetlendirme kriterlerini oluşturuyor, akabinde yapay zekâ bunları inceleyerek kusurları, çelişkileri yahut gereksiz kısıtlamaları denetim ediyor. Daha sonra, gerçek yorumcular kriterleri tekrar daha uygun hale getiriyor. Bu süreç tekrarlanarak giderek daha hassas kıymetlendirme standartları oluşturuluyor. Kelam konusu çapraz doğrulama kriterlerine dayanan yapay zekâ modellerinin otomatik değerlendirmesiyle şahsî önyargılar en aza indiriliyor ve tutarlılık sağlanıyor. Her testte, modelin değerlendirmeden geçebilmesi için tüm şartların karşılanması gerekiyor. Bu da vazifelerin daha detaylı ve hassas puanlanmasını sağlıyor.
TRUEBench’in data örnekleri ve puanlama tabloları, global açık kaynak platformu Hugging Face’de yer alıyor. Bu da kullanıcıların beş modele kadar karşılaştırma yapmasına ve yapay zekâ model performanslarını bir bakışta kapsamlı bir formda incelemesine imkân tanıyor. Ayrıyeten, ortalama cevap müddeti sonuçlarına ait datalar de yayınlanıyor. Böylelikle, performans ve verimlilik eşzamanlı karşılaştırılabiliyor.
Kaynak: (BYZHA) Beyaz Haber Ajansı