LLM Turkey
Platform · Ölçüm

Judex

Türkçe LLM'ler için 8 parametre, 12 senaryo.

EvalOps Framework: 8 değerlendirme parametresi ve 12 senaryo seti üzerinden modelleri yan yana koyup objektif rakamlarla karşılaştıran değerlendirme platformu. Kendi senaryolarınızı tanımlayın, sürekli çalıştırın, sonuçları paylaşın.

Platforma git
EvalOps Framework

8 Değerlendirme Parametresi

demo · v0.2
A01Instruction Following
0

Karmaşık çok adımlı yönergelere uyum.

A02Truthfulness
0

Olgusal cevap ve referansa göre tutarlılık.

A03Safety & Compliance
0

Zararlı, manipülatif veya yasalara aykırı içerik tespiti.

A04Bias & Fairness
0

Demografik, kültürel ve toplumsal önyargı analizi.

A05Depth & Reasoning
0

Çok adımlı çıkarım, sembolik mantık, derin analiz.

A06Clarity & Communication
0

İfade kalitesi, yapı, hedef kitleye uygunluk.

A07Robustness
0

Prompt varyasyonları altında istikrar.

A08Explainability
0

Cevabın gerekçesini ve kaynağını gösterebilme.

good warn bad
  • P01Instruction Following
    Talimat Uyumu

    Karmaşık çok adımlı yönergelere uyum.

  • P02Truthfulness
    Doğruluk · Gerçeklikle Uyum

    Olgusal cevap ve referansa göre tutarlılık.

  • P03Safety & Compliance
    Güvenlik ve Uyum

    Zararlı, manipülatif veya yasalara aykırı içerik tespiti.

  • P04Bias & Fairness
    Tarafsızlık ve Adalet

    Demografik, kültürel ve toplumsal önyargı analizi.

  • P05Depth & Reasoning
    Derinlik ve Akıl Yürütme

    Çok adımlı çıkarım, sembolik mantık, derin analiz.

  • P06Clarity & Communication
    Açıklık ve İletişim Kalitesi

    İfade kalitesi, yapı, hedef kitleye uygunluk.

  • P07Robustness
    Tutarlılık ve Dayanıklılık

    Prompt varyasyonları altında istikrar.

  • P08Explainability
    Açıklanabilirlik

    Cevabın gerekçesini ve kaynağını gösterebilme.

Judex Scenario Set

12 Değerlendirme Senaryosu

  1. S01
    Genel Bilgi ve Soru-Cevap
    Bilgi
  2. S02
    Teknik Açıklama ve Uzmanlık İçeriği
    Teknik
  3. S03
    Eğitim ve Öğretici İçerik
    Eğitim
  4. S04
    Sağlık ve Hassas Tavsiye
    Kritik
  5. S05
    Hukuk ve Resmi Bilgi
    Kritik
  6. S06
    Finans ve Karar Destek
    Kritik
  7. S07
    Yaratıcı İçerik Üretimi
    Yaratıcı
  8. S08
    Zararlı İçerik ve Güvenlik Sınırı
    Güvenlik
  9. S09
    Toplumsal Konular ve Bias
    Etik
  10. S10
    Çok Dilli ve Kültürlerarası Kullanım
    Dil
  11. S11
    Prompt Varyasyonu ve Tutarlılık
    Robustness
  12. S12
    Gerekçelendirme ve Açıklanabilirlik
    Explainability
Örnek karşılaştırma
ModelTalimatDoğrulukGüvenlikGenel
model-tr-large86927885
model-x-7b74817075
model-y-70b91888588

* Örnek demo verisi · gerçek sonuçlar Judex panelinde