Ekosistem · Network

Zekâyı Ölç.Güveni İnşa Et.

LLMTurkey Network, Türkiye'nin yapay zekâ değerlendirme topluluğudur. Aramıza katılın.

Sorun

Türkçe modellerin güvenilirliği bilinmiyor.

Binlerce kurum yapay zekâyı operasyona alıyor — ama hangi modelin Türkçe'de doğru, güvenli ve tutarlı çalıştığı bağımsız bir kaynaktan ölçülmüyor.

Türkçe boşluğu

Global benchmark'ların büyük çoğunluğu İngilizce. Türkçe halüsinasyon, tarafsızlık ve akıl yürütme performansı sistematik olarak ölçülmüyor.

Sağlayıcı pazarlaması

Model sağlayıcılarının kendi yayınladığı skorlar bağımsız değil. Kurumlar üreticiye değil, üçüncü tarafa güvenmek istiyor.

Operasyonel kör nokta

Bir model üretime alındıktan sonra Türkçe'de nasıl davrandığını sürekli ölçecek altyapı çoğu kurumda yok.

Vizyon

Türkiye'nin EvalOps omurgası.

Önümüzdeki üç yılda Türkçe yapay zekânın bağımsız ölçüm referansı olmayı; akademi, sanayi ve kamu için ortak bir değerlendirme dili kurmayı hedefliyoruz.

Bağımsız benchmark

Sağlayıcıdan, projeden ve siyasetten bağımsız, sürekli güncellenen Türkçe odaklı skor tabloları.

EvalOps pratiği

Kurumların kendi modellerini sürekli ölçebileceği, üretime entegre edilebilen değerlendirme operasyonları.

Araştırma çekirdeği

Türkçe LLM güvenliği, tarafsızlığı ve dayanıklılığı üzerine açık raporlar üreten araştırma ağı.

Örnek Kullanım Senaryoları

Network içinde gerçekten ne çalışıyoruz?

U01Banka · Müşteri hizmetleriChatbot'un müşteriye yanlış faiz oranı söylemesi riski.8 modelin TR-Truth skoru + halüsinasyon haritası → en güvenli model + iyileştirme listesi.
U02Kamu · Doküman özetlemeResmî yazışmada model güvenliği ve tarafsızlığı.Safety & Bias parametrelerinde 5 model karşılaştırması + KVKK uyum notu.
U03Sağlık startup'ı · Klinik destekTıbbi terim doğruluğu ve açıklanabilirlik gereksinimi.Truthfulness + Explainability skorları, kaynaklı cevap testleri, üretim için karar raporu.

Platform Çıktıları

Network'ün ürettiği somut işler.

Ağa katılanlar bu çıktıların altında ismiyle yer alır — manifestoyla değil, ölçümle anılırız.

O01

Türkçe LLM Skor Tablosu

Üç ayda bir güncellenen, 9 parametrede 12 senaryoyla ölçülmüş açık leaderboard.

O02

Sektör Raporları

Banka, kamu, sağlık ve eğitim alanlarında özelleşmiş değerlendirme raporları.

O03

EvalOps Playbook'ları

Kurumların kendi içinde ölçüm hattı kurması için açık metodoloji ve şablon kitleri.

O04

Açık Senaryo Setleri

Topluluk tarafından genişletilen, GitHub'da yayınlanan Türkçe değerlendirme senaryoları.

Founding Council

Kurucu Konsey

Türkiye'de yapay zekâ değerlendirme kültürünü şekillendirecek seçilmiş akademisyenler, araştırmacılar ve sektör liderlerinden oluşan uzman ağı.

01Strateji ve metrik tasarımına yön veren uzman görüşleri
02Benchmark ve raporlarda atfedilen üyelik
03Yıllık Kurucu Zirve'de ayrılmış yer

Şu Anki Gerçek İhtiyaç

Şimdi hangi rollere ihtiyacımız var?

Network sembolik bir aidiyet değil — açık projelerimizde gerçek katkı arıyoruz. Aşağıdaki rollere uyduğunuzu düşünüyorsanız başvurunuz öncelik sırasına girer.

R01

Türkçe NLP araştırmacısı

Bias & Fairness ve Truthfulness senaryolarının Türkçe veri setlerini genişletmek için.

R02

EvalOps mühendisi

Sürekli benchmark hattının altyapısını kurmak ve API entegrasyonlarını yönetmek için.

R03

Domain uzmanı (hukuk · sağlık · finans)

Sektörel senaryoların gerçek hayata uygunluğunu denetlemek için.

R04

Topluluk koordinatörü

Etkinlikler, açık çağrılar ve partner iletişimini yürütmek için.

Kimler Katılabilir

A01Öğrenciler

Öğrenciler

AI değerlendirme, benchmark mantığı ve EvalOps alanında kendini geliştirmek isteyenler.

A02Araştırmacılar

Araştırmacılar

Benchmark, AI güvenliği, etik ve model değerlendirme araştırmalarına katkı sunmak isteyenler.

A03Profesyoneller

Profesyoneller

Yapay zekâyı iş süreçlerinde kullanan veya bu alanda uzmanlaşmak isteyenler.

A04Sektör Liderleri

Sektör Liderleri

Kurumlarında güvenilir AI dönüşümüne yön vermek isteyen yöneticiler.

A05Partnerler

Partnerler

Üniversiteler, şirketler, teknoloji girişimleri ve topluluklar.

Kazanımlar

Ağa katıldığınızda ne kazanırsınız?

01
EvalOps uzmanlığı
12 haftalık EvalOps Specialist programı + canlı projelerde uygulama.
02
Gerçek benchmark projeleri
Judex'te yayınlanan değerlendirme çalışmalarına katkı; sonuçlar isminizle anılır.
03
Enterprise AI evaluation deneyimi
Banka, kamu ve teknoloji şirketlerinin değerlendirme projelerinde sahada deneyim.
04
Araştırma ağı
Türkçe LLM güvenliği ve tarafsızlığı üzerine çalışan araştırmacılarla doğrudan iş birliği.
05
Kariyer fırsatları
Partner kurumların iş ve danışmanlık ilanlarına Network'e özel referans hattı.
06
Topluluk ve partner ağı
Aylık kapalı oturumlar, founding üyelere erişim, partner kurumlarla tanışma.

Etkinlikler

Sadece üyelere açık etkinlikler

Yapay zekâ değerlendirme alanındaki en güncel konuları küçük ve odaklı gruplarla ele alıyoruz.

E01WebinarlarBelirli benchmark ve EvalOps konularında uzman konuşmacılarla canlı oturumlar.
E02WorkshoplarPratik odaklı, küçük gruplarla yürütülen uygulamalı çalışma atölyeleri.
E03Kurucu ZirveYılda bir kez, kurucu konsey ve seçili partnerlerle özel zirve buluşması.
E04Yuvarlak MasaSektör ve akademi temsilcilerinin belirli temalar üzerine kapalı oturum tartışmaları.
E05Benchmark OturumlarıYeni model ve metriklerin canlı olarak değerlendirildiği teknik oturumlar.

Partnerlik

Geleceğin GüvenilirYapay Zekâ EkosisteminiBirlikte İnşa Edelim

Akademi, sanayi ve toplulukla kurduğumuz uzun soluklu iş birlikleri, LLMTurkey Network'ün omurgasını oluşturur.

P01

Akademik Partner

Üniversiteler, araştırma merkezleri ve enstitüler için ortak benchmark çalışmaları, yayın ve müfredat iş birlikleri.

P02

Teknoloji Partneri

Model sağlayıcıları, altyapı şirketleri ve AI girişimleriyle entegrasyon ve değerlendirme ortaklıkları.

P03

Kurumsal Partner

AI dönüşümünü ölçülebilir kılmak isteyen kurumlar için özel benchmark ve EvalOps programları.

P04

Topluluk Partneri

Topluluklar, dernekler ve etkinlikler için ortak içerik, etkinlik ve görünürlük iş birlikleri.

Partner Ol