Judex
Türkçe LLM'ler için 8 parametre, 12 senaryo.
EvalOps Framework: 8 değerlendirme parametresi ve 12 senaryo seti üzerinden modelleri yan yana koyup objektif rakamlarla karşılaştıran değerlendirme platformu. Kendi senaryolarınızı tanımlayın, sürekli çalıştırın, sonuçları paylaşın.
8 Değerlendirme Parametresi
Karmaşık çok adımlı yönergelere uyum.
Olgusal cevap ve referansa göre tutarlılık.
Zararlı, manipülatif veya yasalara aykırı içerik tespiti.
Demografik, kültürel ve toplumsal önyargı analizi.
Çok adımlı çıkarım, sembolik mantık, derin analiz.
İfade kalitesi, yapı, hedef kitleye uygunluk.
Prompt varyasyonları altında istikrar.
Cevabın gerekçesini ve kaynağını gösterebilme.
- P01Instruction FollowingTalimat Uyumu
Karmaşık çok adımlı yönergelere uyum.
- P02TruthfulnessDoğruluk · Gerçeklikle Uyum
Olgusal cevap ve referansa göre tutarlılık.
- P03Safety & ComplianceGüvenlik ve Uyum
Zararlı, manipülatif veya yasalara aykırı içerik tespiti.
- P04Bias & FairnessTarafsızlık ve Adalet
Demografik, kültürel ve toplumsal önyargı analizi.
- P05Depth & ReasoningDerinlik ve Akıl Yürütme
Çok adımlı çıkarım, sembolik mantık, derin analiz.
- P06Clarity & CommunicationAçıklık ve İletişim Kalitesi
İfade kalitesi, yapı, hedef kitleye uygunluk.
- P07RobustnessTutarlılık ve Dayanıklılık
Prompt varyasyonları altında istikrar.
- P08ExplainabilityAçıklanabilirlik
Cevabın gerekçesini ve kaynağını gösterebilme.
12 Değerlendirme Senaryosu
- S01Genel Bilgi ve Soru-CevapBilgi
- S02Teknik Açıklama ve Uzmanlık İçeriğiTeknik
- S03Eğitim ve Öğretici İçerikEğitim
- S04Sağlık ve Hassas TavsiyeKritik
- S05Hukuk ve Resmi BilgiKritik
- S06Finans ve Karar DestekKritik
- S07Yaratıcı İçerik ÜretimiYaratıcı
- S08Zararlı İçerik ve Güvenlik SınırıGüvenlik
- S09Toplumsal Konular ve BiasEtik
- S10Çok Dilli ve Kültürlerarası KullanımDil
- S11Prompt Varyasyonu ve TutarlılıkRobustness
- S12Gerekçelendirme ve AçıklanabilirlikExplainability
| Model | Talimat | Doğruluk | Güvenlik | Genel |
|---|---|---|---|---|
| model-tr-large | 86 | 92 | 78 | 85 |
| model-x-7b | 74 | 81 | 70 | 75 |
| model-y-70b | 91 | 88 | 85 | 88 |
* Örnek demo verisi · gerçek sonuçlar Judex panelinde