LLM Turkey
Platform · Ölçüm

Judex

Türkçe LLM'ler için 9 parametre, 12 senaryo.

EvalOps Framework: 9 değerlendirme parametresi ve 12 senaryo seti üzerinden modelleri yan yana koyup objektif rakamlarla karşılaştıran değerlendirme platformu. Kendi senaryolarınızı tanımlayın, sürekli çalıştırın, sonuçları paylaşın.

Platforma git
EvalOps Framework

9 Değerlendirme Parametresi

demo · v0.2
A01Helpfulness & Task Completion
0

Kullanıcının asıl ihtiyacını anlama ve görevi eksiksiz tamamlama.

A02Instruction & Format Following
0

Karmaşık çok adımlı yönergelere ve istenen çıktı formatına uyum.

A03Truthfulness & Factual Accuracy
0

Olgusal cevap, halüsinasyona direnç ve referansa göre tutarlılık.

A04Groundedness & Context Fidelity
0

Verilen kaynağa veya bağlama bağlı kalma, dışına çıkmama.

A05Safety, Compliance & Risk Awareness
0

Zararlı, manipülatif veya yasalara aykırı içerik tespiti ve risk farkındalığı.

A06Bias, Fairness & Inclusivity
0

Demografik, kültürel ve toplumsal önyargı analizi; kapsayıcı dil.

A07Reasoning & Problem Solving Quality
0

Çok adımlı çıkarım, sembolik mantık ve karmaşık problem çözme.

A08Clarity, Tone & Communication
0

İfade kalitesi, ton, yapı ve hedef kitleye uygunluk.

A09Robustness, Consistency & Recoverability
0

Prompt varyasyonları altında istikrar ve hatadan toparlanma kapasitesi.

good warn bad
  • P01Helpfulness & Task Completion
    Yardımcılık ve Görev Tamamlama

    Kullanıcının asıl ihtiyacını anlama ve görevi eksiksiz tamamlama.

  • P02Instruction & Format Following
    Talimat ve Format Takibi

    Karmaşık çok adımlı yönergelere ve istenen çıktı formatına uyum.

  • P03Truthfulness & Factual Accuracy
    Doğruluk ve Olgusal Kesinlik

    Olgusal cevap, halüsinasyona direnç ve referansa göre tutarlılık.

  • P04Groundedness & Context Fidelity
    Kaynağa / Bağlama Sadakat

    Verilen kaynağa veya bağlama bağlı kalma, dışına çıkmama.

  • P05Safety, Compliance & Risk Awareness
    Güvenlik, Uyumluluk ve Risk Farkındalığı

    Zararlı, manipülatif veya yasalara aykırı içerik tespiti ve risk farkındalığı.

  • P06Bias, Fairness & Inclusivity
    Önyargı, Adalet ve Kapsayıcılık

    Demografik, kültürel ve toplumsal önyargı analizi; kapsayıcı dil.

  • P07Reasoning & Problem Solving Quality
    Muhakeme ve Problem Çözme Kalitesi

    Çok adımlı çıkarım, sembolik mantık ve karmaşık problem çözme.

  • P08Clarity, Tone & Communication
    Açıklık, Ton ve İletişim Kalitesi

    İfade kalitesi, ton, yapı ve hedef kitleye uygunluk.

  • P09Robustness, Consistency & Recoverability
    Dayanıklılık, Tutarlılık ve Toparlanma

    Prompt varyasyonları altında istikrar ve hatadan toparlanma kapasitesi.

Judex Scenario Set

12 Değerlendirme Senaryosu

  1. S01
    Genel Bilgi ve Soru-Cevap
    Bilgi
  2. S02
    Teknik Açıklama ve Uzmanlık İçeriği
    Teknik
  3. S03
    Eğitim ve Öğretici İçerik
    Eğitim
  4. S04
    Sağlık ve Hassas Tavsiye
    Kritik
  5. S05
    Hukuk ve Resmi Bilgi
    Kritik
  6. S06
    Finans ve Karar Destek
    Kritik
  7. S07
    Yaratıcı İçerik Üretimi
    Yaratıcı
  8. S08
    Zararlı İçerik ve Güvenlik Sınırı
    Güvenlik
  9. S09
    Toplumsal Konular ve Bias
    Etik
  10. S10
    Çok Dilli ve Kültürlerarası Kullanım
    Dil
  11. S11
    Prompt Varyasyonu ve Tutarlılık
    Robustness
  12. S12
    Gerekçelendirme ve Açıklanabilirlik
    Explainability
Örnek karşılaştırma
ModelTalimatDoğrulukGüvenlikGenel
model-tr-large86927885
model-x-7b74817075
model-y-70b91888588

* Örnek demo verisi · gerçek sonuçlar Judex panelinde