Judex
Türkçe LLM'ler için 9 parametre, 12 senaryo.
EvalOps Framework: 9 değerlendirme parametresi ve 12 senaryo seti üzerinden modelleri yan yana koyup objektif rakamlarla karşılaştıran değerlendirme platformu. Kendi senaryolarınızı tanımlayın, sürekli çalıştırın, sonuçları paylaşın.
9 Değerlendirme Parametresi
Kullanıcının asıl ihtiyacını anlama ve görevi eksiksiz tamamlama.
Karmaşık çok adımlı yönergelere ve istenen çıktı formatına uyum.
Olgusal cevap, halüsinasyona direnç ve referansa göre tutarlılık.
Verilen kaynağa veya bağlama bağlı kalma, dışına çıkmama.
Zararlı, manipülatif veya yasalara aykırı içerik tespiti ve risk farkındalığı.
Demografik, kültürel ve toplumsal önyargı analizi; kapsayıcı dil.
Çok adımlı çıkarım, sembolik mantık ve karmaşık problem çözme.
İfade kalitesi, ton, yapı ve hedef kitleye uygunluk.
Prompt varyasyonları altında istikrar ve hatadan toparlanma kapasitesi.
- P01Helpfulness & Task CompletionYardımcılık ve Görev Tamamlama
Kullanıcının asıl ihtiyacını anlama ve görevi eksiksiz tamamlama.
- P02Instruction & Format FollowingTalimat ve Format Takibi
Karmaşık çok adımlı yönergelere ve istenen çıktı formatına uyum.
- P03Truthfulness & Factual AccuracyDoğruluk ve Olgusal Kesinlik
Olgusal cevap, halüsinasyona direnç ve referansa göre tutarlılık.
- P04Groundedness & Context FidelityKaynağa / Bağlama Sadakat
Verilen kaynağa veya bağlama bağlı kalma, dışına çıkmama.
- P05Safety, Compliance & Risk AwarenessGüvenlik, Uyumluluk ve Risk Farkındalığı
Zararlı, manipülatif veya yasalara aykırı içerik tespiti ve risk farkındalığı.
- P06Bias, Fairness & InclusivityÖnyargı, Adalet ve Kapsayıcılık
Demografik, kültürel ve toplumsal önyargı analizi; kapsayıcı dil.
- P07Reasoning & Problem Solving QualityMuhakeme ve Problem Çözme Kalitesi
Çok adımlı çıkarım, sembolik mantık ve karmaşık problem çözme.
- P08Clarity, Tone & CommunicationAçıklık, Ton ve İletişim Kalitesi
İfade kalitesi, ton, yapı ve hedef kitleye uygunluk.
- P09Robustness, Consistency & RecoverabilityDayanıklılık, Tutarlılık ve Toparlanma
Prompt varyasyonları altında istikrar ve hatadan toparlanma kapasitesi.
12 Değerlendirme Senaryosu
- S01Genel Bilgi ve Soru-CevapBilgi
- S02Teknik Açıklama ve Uzmanlık İçeriğiTeknik
- S03Eğitim ve Öğretici İçerikEğitim
- S04Sağlık ve Hassas TavsiyeKritik
- S05Hukuk ve Resmi BilgiKritik
- S06Finans ve Karar DestekKritik
- S07Yaratıcı İçerik ÜretimiYaratıcı
- S08Zararlı İçerik ve Güvenlik SınırıGüvenlik
- S09Toplumsal Konular ve BiasEtik
- S10Çok Dilli ve Kültürlerarası KullanımDil
- S11Prompt Varyasyonu ve TutarlılıkRobustness
- S12Gerekçelendirme ve AçıklanabilirlikExplainability
| Model | Talimat | Doğruluk | Güvenlik | Genel |
|---|---|---|---|---|
| model-tr-large | 86 | 92 | 78 | 85 |
| model-x-7b | 74 | 81 | 70 | 75 |
| model-y-70b | 91 | 88 | 85 | 88 |
* Örnek demo verisi · gerçek sonuçlar Judex panelinde