03.07.2025

LLM Parametreleri Nedir? Temperature, Top-p ve Max Tokens Rehberi

Temperature, Top-p, Max Tokens, Frequency Penalty ve Search Limit ayarlarını öğrenin; LLM tabanlı chatbot, RAG ve içerik üretim projelerinde yaratıcı, tutarlı, düşük maliyetli sonuçlar alın. SkyStudio örnekli kılavuzla parametre optimizasyonunu keşfedin.

Günümüzde, Büyük Dil Modelleri (LLM) ve bu modeller üzerine inşa edilen yapay zeka tabanlı ajanlar, doğal dil işleme (NLP) alanında çığır açan gelişmelerin merkezinde yer alıyor. Bu güçlü araçların başarısı, önemli ölçüde model parametrelerinin ve arama yapılandırmalarının doğru şekilde ayarlanmasına bağlı. Geliştiriciler ve kullanıcılar, söz konusu parametreleri yöneterek LLM ajanlarının yaratıcılığını, cevapların uzunluğunu, çeşitliliğini ve arama süreçlerinin etkinliğini kontrol edebilirler.

LLM’lerin performansını üst düzeye çıkarmak, sadece modelin gücüyle değil, aynı zamanda kullanıcı ve uygulama ihtiyaçlarına uygun ince ayarlarla mümkündür. Özellikle RAG (Retrieval-Augmented Generation) sistemleri ve sohbet ajanları gibi ileri seviye uygulamalarda, doğru parametre optimizasyonu kritik öneme sahiptir. Bu bağlamda, Temperature , Top-p ve Frequency Penalty gibi temel hiperparametrelerin matematiksel temellerini anlamak ve aralarındaki etkileşimleri doğru yorumlamak gerekir.

Yaratıcılık (Temperature)

Temperature parametresi, büyük dil modellerinin metin üretirken kullandıkları rastgelelik düzeyini belirler. Teknik olarak, bu parametre softmax fonksiyonunun logit değerlerini ölçeklendiren bir katsayı olarak ifade edilir. Temperature, τ sembolüyle gösterilir.
τ (temperature) parametresi küçüldükçe model daha kesin, deterministik çıktılar üretmeye başlar. Tam tersine, τ değeri yükseldikçe modelin tahmin olasılıkları daha homojen bir hale gelir, yani daha düşük olasılıklı kelimeler de seçilme şansı kazanır.

Düşük temperature değerlerinde, model çok deterministik davranır. Bu durumda model, genellikle en yüksek olasılığa sahip kelimeleri seçerek tutarlı ve tahmin edilebilir yanıtlar üretir. Teknik konular, kod tamamlama veya matematiksel soru cevaplama gibi doğruluk gerektiren görevlerde bu düşük temperature değerleri tercih edilir.

Yüksek temperature değerleri, modeli daha yaratıcı ve beklenmedik seçimler yapmaya teşvik eder. Yüksek değerler dağılımı daha düz hale getirir, yani olasılığı düşük kelimelerin de seçilme ihtimali artar. Bu durum, daha çeşitli, yenilikçi ancak zaman zaman mantıksal tutarsızlıklar içerebilen metinler ortaya çıkarır. Örneğin yaratıcı hikaye üretimi, şiir yazımı veya beyin fırtınası süreçlerinde yüksek temperature değerleri idealdir.

Pratikte temperature ayarlarının etkisi:

Çok Düşük Temperature: Bu durumda model, “greedy decoding” denilen yöntemle çalışır ve en olası kelimeyi seçer. Örneğin, “Hava çok sıcak, bu yüzden…” ifadesini tamamlamasını istediğinizde model her seferinde neredeyse %98 olasılıkla “klimayı açtım.” şeklinde benzer cevaplar verir. Bu tarz kullanım, tutarlı ve güvenilir olması gereken müşteri hizmetleri chatbotlarında tercih edilebilir.

Orta Temperature: Bu ayar, modern modellerin varsayılan değeridir ve modelin orijinal olasılık dağılımını korur. Bu seviyede model tutarlı fakat sıkıcı olmayan, dengeli cevaplar üretir. Orta temperature, birçok günlük kullanım
senaryosunda idealdir ve hem tutarlılık hem de akıcılık sağlar.

Yüksek Temperature: Bu durumda model çok daha deneysel, yaratıcı ve bazen şaşırtıcı çıktılar üretir. 2025’te yapılan bir araştırmaya göre, τ=1.8 ayarıyla üretilen şiirlerin yaklaşık %40’ı, insanlar tarafından oluşturulmuş şiirlerden ayırt edilememiştir.

Yüksek temperature ayarları, yaratıcı yazarlık, hikaye anlatımı veya sanat odaklı projelerde özellikle tercih edilir.

Max Tokens (Yanıt Uzunluğu)

Max Tokens parametresi, büyük dil modellerinin vereceği cevabın maksimum uzunluğunu belirlemek için kullanılır. Dil modelleri, metinleri işleyip oluştururken, metni “token” adı verilen daha küçük parçalara bölerler. Max Tokens değeri, modelin tek bir yanıtta en fazla kaç token kullanabileceğini belirleyen üst sınırdır. Model her zaman bu sınıra ulaşmak zorunda değildir; yanıtını belirtilen maksimum değerden daha kısa tutabilir ancak asla daha uzun bir yanıt üretmez.

Max Tokens parametresinin kontrol edilmesi, özellikle API kullanım maliyetlerini düşürmek, cevap verme hızını artırmak ve kullanıcıların ihtiyaç duyduğu detay seviyesine uygun yanıtlar sunmak açısından önemlidir. Ayrıca kullanıcı deneyimi açısından bakıldığında, cevapların gereksiz uzunlukta olmasını önleyerek okunabilirliği ve kullanım kolaylığını artırır.

Max Tokens değerinin çok düşük tutulması, modelin cevaplarını erken sonlandırmasına neden olabilir. Örneğin, kapsamlı bir soruya yalnızca kısa ve yüzeysel bir yanıt vermesine yol açabilir. Bu durum, özellikle açıklama yapma, özetleme veya analiz gibi detay gerektiren görevlerde ciddi kısıtlamalar yaratır. Model, yeterince derinlemesine bir cevap vermeden yanıtını sonlandırmak zorunda kalabilir.

Diğer taraftan, Max Tokens değerinin çok yüksek ayarlanması da bazı sorunlara sebep olabilir. Uzun yanıt sınırları, modelin daha kapsamlı ve detaylı cevaplar sunabilmesine olanak tanır; bu özellikle teknik doküman hazırlama, hikaye anlatımı veya kapsamlı analiz gibi görevlerde faydalıdır. Ancak değer aşırı yüksek tutulursa, model yanıtı gereğinden fazla uzatabilir, konudan uzaklaşabilir ya da aynı bilgileri sürekli tekrar ederek “halüsinasyon” adı verilen anlamsız içerikler üretebilir.

Top P

Top-p, nucleus sampling olarak da bilinen bir seçim yöntemidir ve büyük dil modellerinin kelime üretirken kullanabileceği tokenları dinamik bir biçimde belirlemesini sağlar. Modelin kelime seçerken kullandığı olasılık dağılımını, belirli bir kümesel eşik (p) değeri üzerinden kısıtlar. Daha basit ifade etmek gerekirse; Top-p parametresi, modelin en yüksek olasılıktan başlayarak, toplam küme olasılığı belirlenen p değerine ulaşana kadar tokenları seçmesini sağlar.

Örneğin, Top-p=0.9 seçildiğinde model, en yüksek olasılığa sahip kelimeleri sıralayarak toplam olasılıkları %90ʼa ulaşana kadar olan tüm tokenları dikkate alır. Geriye kalan, daha düşük olasılıklı kelimeler ise tamamen devre dışı bırakılır. Böylece, model her durumda sabit bir sayı yerine, olasılık dağılımına göre değişen, dinamik bir token kümesi üzerinden seçim yapar.

Top-p değerinin düşük olması, modelin sadece çok yüksek olasılıklı, sınırlı sayıda kelime arasından seçim yapmasına neden olur. Bu durum, modelin üreteceği metnin daha tutarlı, daha tahmin edilebilir ama aynı zamanda daha sınırlı ve standart olmasına yol açar. Özellikle teknik metinler, kritik talimatlar veya hassas bilgi gerektiren senaryolarda düşük Top-p değerleri tercih edilir, çünkü bu ayarda model güvenli ve beklentilere yakın kelimeler seçer.

Top-p değerinin yüksek olması, modelin daha geniş bir token kümesine bakmasını sağlar ve böylece daha çeşitli, yaratıcı ve beklenmedik seçimler yapmasına imkan verir. Bu ayarlar, hikaye yazımı, yaratıcı içerik üretimi veya belirsiz konularda beyin fırtınası gibi görevlerde oldukça yararlıdır. Ancak yüksek Top-p değerlerinde, modele sağlanan serbestlik arttıkça, bazen bağlam dışı veya ilgisiz kelimelerin de seçilme ihtimali artar.

Düşük Top-p: Bir hikaye yazımında, “Büyücü kapıyı açtı ve karşısında…” cümlesini tamamlamasını istediğimizde, model genellikle tahmin edilebilir, klişe bir tamamlamayı seçer. Böyle bir durumda modelin “bir ejderha gördü” veya “kötü bir ruhla karşılaştı” gibi klasik seçenekleri tercih etmesi çok yüksektir. Bu durum, metnin yaratıcılığını azaltır ancak tutarlı ve güvenilir sonuçlar sağlar.

Orta-Yüksek Top-p: Aynı hikaye örneğinde, modelin seçim alanı genişler ve daha az olası seçenekleri de dahil eder. Böylece model, belki “uzun zamandır kayıp olan arkadaşını buldu” veya “yıllar önce unuttuğu çocukluk oyuncağıyla yüzleşti” gibi daha yaratıcı ve sürprizlerle dolu seçenekleri tercih edebilir. Bu sayede metnin çeşitliliği ve ilginç yönleri artar.

Çoğu uygulama için 0.8-0.95 aralığı, çeşitlilik ve tutarlılık arasında ideal bir denge sağlar. 1.0 değeri ise tüm olasılık dağılımını modele açar ve en geniş yaratıcılık potansiyelini sunar; fakat aynı zamanda beklenmedik ve bazen ilgisiz çıktılara da sebep olabilir. Parametreleri kullanırken, kendi senaryonuzda farklı değerleri test ederek ideal Top-p ayarını bulmanız en doğru yaklaşımdır.

Presence Penalty

Presence penalty, bir kelimenin ya da tokenʼın model çıktısında en az bir kez geçmesi durumunda devreye giren bir ceza mekanizmasıdır. Bu ceza, kelimenin ne kadar tekrarlandığına değil, yalnızca var olup olmadığına bakar. Yani bir kelime yalnızca bir kez bile kullanılmışsa, modelin o kelimeyi tekrar seçme ihtimali otomatik olarak düşürülür. Teknik olarak, bu işlem tokenʼın logit değerinden sabit bir katsayının çıkarılmasıyla uygulanır.

Bu parametre, özellikle aynı kelimelerin veya özel terimlerin metin içinde farkında olmadan çok sık tekrar edilmesini engellemek için kullanılır. Örneğin, yaratıcı bir metin üretiminde “sihirli” kelimesinin her cümlede tekrar etmesi hem okuyucuyu yorar hem de metni tekdüze hale getirir. Bu gibi durumları önlemek için presence penalty devreye girer ve modeli, farklı kelimeler veya ifadeler kullanmaya yönlendirir.

Presence penalty değerinin artırılması, modelin kendini tekrar eden ifadelerden uzak durmasına yardımcı olur. Model, daha önce kullandığı bir kelimeyi yeniden tercih etmektense, eş anlamlısını, yakın anlamlısını ya da farklı bir anlatım biçimini seçme eğilimi gösterir. Bu, özellikle çeşitlilik gereken senaryolarda metne zenginlik katar.

Öte yandan, presence penalty değeri sıfıra yakın olduğunda, model daha serbest davranır ve aynı kelimeyi defalarca tekrar etmekten çekinmez. Bu durum, bazı teknik metinlerde veya aynı terimin bilinçli olarak vurgulanmak istendiği senaryolarda faydalı olabilir. Örneğin bir ürün belgesi hazırlarken “veri güvenliği” terimi sürekli geçebilir ve bu tekrar, tutarlılık açısından önemlidir.

Yüksek Presence Penalty: Kullanıcı, modelden “Bir kediyi tarif et” şeklinde bir yanıt istiyor diyelim. Model, “kedi” kelimesini bir kez kullandıktan sonra, aynı kelimeyi tekrar etmekten kaçınarak “bu sevimli hayvan”, “feline”, “minik dost” gibi ifadelerle metni çeşitlendirir. Hatta anlatımı genişleterek kedinin yaşam alanı, davranışları gibi yeni içeriklere yönelir. Sonuç olarak, daha zengin ve tekrar içermeyen bir metin elde edilir.

Düşük Presence Penalty: Aynı örnekte, model “kedi” kelimesini defalarca tekrar edebilir:

“Bu kedi çok tatlı bir kedi, çünkü kedi annesinin yanına sokuldu.” Bu tür tekrarlar, yaratıcı içeriklerde metnin kalitesini düşürebilirken, teknik belgelerde veya şiir gibi yapılarda bilinçli olarak kullanılabilir.

Teknik yazımda tekrar azaltımında frequency penalty daha etkiliyken, yaratıcı yazımda presence penalty daha güçlü bir çeşitlilik sağlayabilir.

Frequency Penalty

Frequency penalty, büyük dil modellerinin bir kelimeyi veya ifadeyi ne kadar sık kullandığına bağlı olarak, o kelimenin tekrar seçilme ihtimalini azaltan bir ceza mekanizmasıdır. Teknik olarak, model bir token’ı ne kadar çok tekrar ederse, o token’ın gelecekte tekrar kullanılma olasılığı o kadar azalır.

Frequency penalty, daha önce bahsedilen presence penalty’den farklı olarak, bir kelimenin varlığını değil, kaç kere tekrarlandığını dikkate alarak ceza uygular. Yani aynı kelime ne kadar çok tekrar edilirse, sonraki kullanımında uygulanan ceza o kadar büyük olur.
Frequency penalty değerinin yüksek olması, modelin sürekli aynı kelimeleri tekrar etmekten kaçınmasına yardımcı olur. Bu sayede metinde daha çeşitli bir kelime dağarcığı kullanılır ve tekrarlar önlenerek okunabilirlik artar. Özellikle aynı kelimenin ard arda kullanıldığı (“çok çok güzel”) ya da anlamsız döngülere girildiği durumların önüne geçmekte faydalıdır. Öte yandan, frequency penalty değerinin düşük ya da sıfır olması durumunda, model tekrarları cezalandırmaz. Bu da bazı senaryolarda istenilen bir özellik olabilir. Örneğin, teknik belgelerde belli terimleri tutarlı biçimde vurgulamak ya da şiir gibi sanatsal metinlerde bilinçli tekrarlar yapmak için düşük değerler tercih edilir.

Yüksek Frequency Penalty: Bir alışveriş listesi oluşturmasını istediğimizde, model yüksek frequency penalty ayarında aynı kelimeleri tekrar etmekten kaçınır. Örneğin: “1. Ekmek, 2. Süt, 3. Peynir, 4. Yumurta” gibi, süt kelimesini art arda yazmak yerine farklı bir seçenek bulur. Benzer şekilde, kısa bir şiir yazarken, yüksek frequency penalty kullanılırsa, model sürekli aynı kelimeyi tekrar etmek yerine eş anlamlı ya da farklı kelimeleri tercih eder ve daha zengin, çeşitli bir metin ortaya çıkar.

Düşük Frequency Penalty: Aynı alışveriş listesi örneğinde, düşük frequency penalty değerleriyle model tekrar konusunda daha rahat davranır. Bu durumda liste, “1. Ekmek, 2. Süt, 3. Süt, 4. Yumurta…” şeklinde tekrarlar içerebilir. Ayrıca, şiirlerde ya da sloganlarda olduğu gibi vurgu amaçlı tekrarların gerekli olduğu durumlarda düşük değerler tercih edilir.Örneğin, “seninle, senin için, senin uğruna…” gibi ifadelerin bilinçli olarak tekrar edilmesi sağlanabilir.

Frequency penalty genellikle presence penalty ile birlikte kullanılır ve bu iki parametre beraber ayarlanarak, metindeki tekrar oranı ideal seviyeye getirilebilir. Bu parametrelerin doğru dengesi, metnin hem akıcı ve okunabilir olmasını hem de içeriğin net biçimde iletilmesini sağlar. Bu nedenle, farklı değerlerle yapılan denemeler sonucunda içeriğiniz için en uygun ayarı bulmanız önemlidir.

Convert Numbers to Text (Sayıları Metne Çevirme)

Convert Numbers to Text parametresi, büyük dil modellerinin metin üretirken ya da metni işlerken, rakamları metinsel olarak ifade etmesini sağlayan bir ayardır. Bu özellik aktif edildiğinde, model girdi veya çıktılarda geçen sayıları rakam olarak değil, yazıyla ifade eder. Örneğin “2025” sayısı “iki bin yirmi beş” şeklinde dönüştürülür.

Bu parametrenin temel amacı, metinlerde rakam ve yazı arasındaki tutarlılığı artırmak, format açısından oluşabilecek karmaşaları önlemek ve modelin sayıların anlamını daha iyi kavramasına yardımcı olmaktır. Bu nedenle özellikle metinden sese dönüşüm (TTS) uygulamaları, resmi dokümanlar, sözleşmeler veya okunabilirliğin kritik olduğu doğal dil kullanım senaryolarında tercih edilir.

Convert Numbers to Text özelliği etkinleştirildiğinde, model çıktıları daha akıcı, doğal ve tutarlı bir görünüm kazanır. Örneğin, özellik açık iken “3 elma” ifadesi yerine “üç elma” ifadesi kullanılır. Bu durum, metnin tamamının düz yazı şeklinde okunacağı veya metinden sese dönüştürülerek kullanılacağı senaryolarda kullanıcı deneyimini önemli ölçüde iyileştirir. Parametre devre dışı bırakıldığında ise sayılar rakam olarak bırakılır. Bu yaklaşım, teknik metinlerde, yazılım kılavuzlarında, finansal raporlarda ve sayısal hesaplama içeren durumlarda tercih edilir çünkü rakamlar metnin net ve daha kolay takip edilebilir olmasını sağlar.

İnsan tarafından okunması amaçlanan metinlerde (ör. sözleşmeler, sesli asistan yanıtları, makaleler, içerik üretimi): Bu parametreyi aktif etmek önerilir.

Teknik dokümanlar, yazılım kılavuzları, finansal raporlar veya matematiksel/istatistiksel içerikler gibi net rakamsal değerlerin kritik olduğu durumlarda: Bu parametrenin devre dışı bırakılması önerilir.

Top K

Top-k, büyük dil modellerinin metin üretim aşamasında bir sonraki kelimeyi seçerken dikkate aldığı seçenek sayısını sabit bir değerle sınırlar. Her adımda model, tüm olası tokenları olasılık sıralamasına göre en yüksekten en düşüğe doğru sıralar ve yalnızca en yüksek olasılığa sahip ilk k tokenı aday havuzuna dahil eder. Bu ilk k seçenek dışındaki tüm diğer tokenlar göz ardı edilir. Böylelikle modelin seçebileceği seçenek kümesi daraltılarak daha tutarlı ve kontrollü sonuçlar elde edilir.
Teknik olarak Top-k örnekleme yöntemi, greedy search ile tamamen rastgele seçim arasında bir denge noktası sunar. K=1 durumunda model tamamen deterministik davranır; yani her zaman en yüksek olasılığa sahip kelimeyi seçer ve alternatifleri yok sayar. K değerinin büyümesi ise daha geniş bir seçim kümesi oluşturduğundan rastgelelik ve çeşitlilik artar.

Top-k değerinin düşük tutulması, modelin seçtiği kelimeleri küçük ve dar bir havuzdan seçmesine yol açar. Bu durum, metnin tutarlılığını artırabilir; çünkü model, yalnızca en yüksek olasılıklı kelimelerden birini seçer. Ancak k değerinin çok küçük olması, yaratıcılığı kısıtlayarak, tekrarlara ve benzer ifadelere sebep olabilir.

Top-k değerinin yükseltilmesi, modelin kelime seçiminde dikkate aldığı seçenekleri genişletir. Bu da daha çeşitli, yaratıcı ve beklenmedik kelimelerin seçilmesine imkan sağlar. Ancak daha geniş bir havuzdan seçim yapmak, bazen alakasız veya bağlam dışı kelimelerin seçilme ihtimalini de artırabilir.

Düşük Top-k Değeri: Bir kullanıcı “Güneş neden parlar?” sorusunu sorduğunda, model k=1 değeriyle her zaman aynı, en yüksek olasılıklı cevabı verir: “Güneş, nükleer füzyon nedeniyle parlar.” Bu durum özellikle net, tutarlı ve kesin cevaplar gerektiren teknik dokümanlar veya hesaplama görevlerinde tercih edilir.

Yüksek Top-k Değeri: Aynı soruda, model her kelimeyi seçerken 50 farklı seçenek arasından seçim yapabilir ve sonuç olarak her defasında biraz farklı bir ifade üretir. Örneğin: “Güneş, çekirdeğinde gerçekleşen hidrojen füzyonu sonucu enerji açığa çıkarır ve bu enerji ışık olarak görünür.” veya “Güneş’in parlaması, merkezindeki atomların birleşerek büyük miktarda enerji üretmesinin bir sonucudur.” Bu şekilde aynı temel bilgi korunurken farklı ifadeler kullanılmış olur.

Hikaye tamamlamada da Top-k etkisini görebiliriz. Örneğin, “Kahraman ormana girdi ve…” cümlesini düşük bir değerle tamamladığımızda model, genellikle tahmin edilebilir ve yaygın seçeneklerden birini seçer. K yüksek bir değerdeyse model, “kaybolmuş antik bir şehir keşfetti” gibi daha beklenmedik ve yaratıcı seçeneklere yönelebilir.

Düşük Top-k : Teknik dokümanlar, yasal belgeler, matematiksel hesaplamalar veya kesin cevapların gerekli olduğu görevlerde tercih edilir.
Orta ve Yüksek Top-k: Yaratıcı içerikler, hikayeler, sohbet botları veya cevaplarda çeşitlilik ve yaratıcılık gerektiren durumlarda daha iyi sonuç verir.

Genellikle Top-k parametresi Top-p parametresi ile birlikte kullanılarak, hem tutarlılığın korunması hem de dinamik ve yaratıcı sonuçların elde edilmesi amaçlanır. Bu iki parametreyi dengeli kullanmak, modelin aşırı tahmin edilebilirlik ve aşırı rastgelelik arasındaki ideal noktayı yakalamasını sağlar.

Merge Chunking

Merge chunking, LLM tabanlı ajanların bilgi getirme süreçlerinde kullandığı özel bir metin ön işleme yöntemidir. Bu teknik, özellikle uzun belgelerin ve kapsamlı metinlerin işlenmesinde iki temel adımdan oluşur:
1. İlk aşamada uzun dokümanlar belirli bir strateji ile daha küçük metin parçalarına (chunk) bölünür. Bu bölme işlemi genellikle sabit uzunlukta paragraflar veya cümle kümeleri şeklinde yapılır.

2. İkinci aşamada ise, bu küçük metin parçaları, aralarındaki anlamsal benzerliğe göre tekrar birleştirilir. Amaç, parçalama sonucunda kaybolan bağlam bütünlüğünü geri kazandırmak ve arama sonuçlarında ilişkili bilgileri daha geniş, anlamlı bloklar halinde sunabilmektir. Böylelikle metinlerin işlenebilirliğini artırırken, bilgi bütünlüğü de korunur.

Merge chunking aktif edildiğinde, model bölünmüş olan metin parçalarını daha büyük ve anlamca tutarlı bloklar şeklinde kullanır. Bu durum, ajanın bilgiye erişimini ve metni anlamlandırmasını kolaylaştırır. Örneğin bir dokümanı 100 kelimelik küçük parçalara böldüğünüzü düşünelim. Eğer önemli bir açıklama iki farklı parçanın arasında bölünmüşse, merge chunking yöntemi bu iki parçayı anlamsal olarak ilişkili bulup yeniden birleştirir. Böylece model, bilginin tamamını tek seferde görüp daha doğru ve kapsamlı bir yanıt verebilir. Bu özellik devre dışı bırakılırsa model yalnızca sabit uzunluktaki küçük parçalarla çalışmak durumunda kalır ve bu durum bağlamın parçalanmasına neden olabilir. Özellikle bir başlık il açıklamasının farklı parçalarda kalması gibi durumlarda, model bunları birbirinden bağımsız olarak değerlendireceğinden, içerik eksik ya da kopuk olabilir.

Uzun, bağlam açısından bütünlüğün kritik olduğu belgelerde (hukuki dokümanlar, tanımlar, hikayeler vb.), merge chunking faydalıdır. Bu metinlerde bağlamın korunması önemlidir ve küçük parçaların anlamsal bütünlüğü sağlayacak şekilde yeniden birleştirilmesi, sonuçların kalitesini artırır.

Her parçanın zaten bağımsız ve anlamlı olduğu durumlarda (örneğin, sıkça sorulan sorular (SSS), kısa madde madde açıklamalar), merge chunkinge ihtiyaç yoktur. Gereksiz yere anlamsal ilişkisi zayıf parçaların birleştirilmesi sistemin performansını olumsuz etkileyebilir. Sonuç olarak merge chunking, doğru uygulandığında büyük belgelerin etkin şekilde işlenmesini sağlayan, anlamsal bütünlüğü koruyan ve arama sonuçlarının kalitesini yükselten güçlü bir tekniktir. Ancak etkin kullanım için, birleştirilen parçaların anlamsal olarak gerçekten ilişkili olduğundan emin olunmalıdır.

Enable Reranking

Yeniden sıralama (reranking), LLM tabanlı ajanların bilgi getirme veya arama sonuçlarını elde ettikten sonra, bu sonuçları ikinci bir aşamada yeniden değerlendirerek daha doğru ve alakalı hale getirme işlemidir. Bu parametre aktif edildiğinde, ajan bulduğu sonuçları doğrudan kullanmak yerine ek bir değerlendirme sürecinden geçirir ve ilgili sorguya en uygun parçaları önceliklendirecek şekilde yeniden sıralar. Devre dışı bırakılırsa, ajan sonuçları elde edildiği sıralamaya göre kullanır.

Reranking aşamasında reranking modelleri, ilk bulunan sonuçları sorgu ile daha derin bir anlamsal düzeyde eşleştirerek, en iyi eşleşen içeriği üst sıralara çıkarır. Bu süreç, özellikle büyük ve heterojen bilgi kümelerinde kritik öneme sahiptir.
Yeniden sıralamanın etkinleştirilmesi, ajanların arama ve bilgi getirme doğruluğunu önemli ölçüde artırabilir. İlk arama sonucu her zaman sorguya en uygun içeriği göstermeyebilir; çünkü ilk sıralama genelde yüzeysel kriterlere (örneğin anahtar kelimelere veya basit benzerliklere) dayanır. Bu durumda sorgu ile gerçek anlamda alakalı içerik bazen alt sıralarda kalabilir. Yeniden sıralama ise bu içerikleri yeniden değerlendirerek sorguya en uygun içeriği üst sıralara çıkarır. Böylece modelin doğru bağlam ve bilgilerle çalışması sağlanır. Bu parametre devre dışı olduğunda, ajan sadece ilk elde edilen sıralamayla yetinir ve potansiyel olarak alakası düşük içeriklerden yanıt üretmek zorunda kalabilir. Bu durum, modelin verdiği cevabın kalitesini düşürebilir veya eksik bilgiler içeren sonuçlara yol açabilir. Yeniden sıralama, özellikle veri kümelerinin büyük ve heterojen olduğu durumlarda yüksek fayda sağlar. Bu gibi durumlarda, ilk arama sonuçlarının kalitesinden emin olmak zor olduğundan reranking aşaması kritik hale gelir ve özellikle cevap odaklı soru cevap sistemlerinde yanıt kalitesini büyük ölçüde artırabilir. Ancak veri kümeleriniz küçük ve ilk arama aşaması zaten oldukça isabetliyse,yeniden sıralama işleminin getireceği ek fayda sınırlı olabilir. Bu durumda ek adımların getireceği maliyet ve zaman kaybını dikkate alarak reranking devre dışı bırakılabilir.

Yüksek doğruluk ve güvenilirlik gereken durumlarda: (ör. akademik araştırmalar, hukuki sorgulamalar, tıbbi içerikler) yeniden sıralamayı aktif etmek tavsiye edilir.

İlk sonuçların yeterince iyi ve hızlı erişilmesi gereken durumlarda:(ör. küçük ölçekli bilgi tabanları, sıkça sorulan sorular) yeniden sıralama işlemini kapalı tutmak daha pratik olabilir.

Search Limit (Arama Sonuç Limiti)

Search Limit (Arama Sonuç Limiti), LLM tabanlı ajanların bir sorguya cevap bulmak için gerçekleştirdiği arama işlemlerinde getireceği maksimum sonuç sayısını belirleyen bir parametredir. Bu parametre, ajanın harici kaynaklardan (örneğin web aramaları, API çağrıları ya da vektör tabanlı doküman sorgulamaları gibi) maksimum kaç sonuç alacağını kontrol eder. Search Limit doğrudan sistemin geri getirme kapsamını (retrieval recall) etkileyen bir faktördür. Daha fazla sonuç almak, ilgili bilgiyi bulma ihtimalini artırırken aynı zamanda gereksiz birçok sonucu da beraberinde getirebilir. Bu nedenle bu parametrenin doğru ayarlanması, ajanın performansı açısından oldukça önemlidir.

Search Limit değerini yüksek tutmak, ajanın bilgi arama sürecinde daha geniş kapsamlı sonuçlar elde etmesini sağlar. Özellikle büyük ve karmaşık bilgi tabanlarında ya da web aramalarında, aradığınız bilginin ilk birkaç sonuç arasında olmayabileceği durumlarda avantajlıdır. Bu durumda yüksek Search Limit değeri, kritik bilgiyi derinlerdeki sonuçlardan bile bulup getirebilmek için faydalıdır. Ancak bu durumda ajanın aldığı sonuçlar arasında ilgisiz ve fazla içeriklerin de bulunma ihtimali artar. Sonuç olarak, bunların daha sonra filtrelenmesi veya yeniden sıralanması gerekebilir. Ayrıca, LLMʼlerin bağlam penceresi (context window) sınırlı olduğundan, çok fazla gereksiz verinin modele verilmesi performansı olumsuz etkileyebilir.

Düşük Search Limit değerlerinde ise ajan yalnızca en olası birkaç sonuca bakar. Bu durum, aramanın hızını ve odaklanmasını artırsa da, aranan bilgi ilk sonuçlar arasında bulunmadığında modelin doğru cevabı kaçırma riskini artırır. Yani düşük Search Limit yüksek hassasiyet (precision) ancak düşük kapsam (recall), yüksek Search Limit ise yüksek kapsam ancak daha düşük hassasiyet anlamına gelir.

Orta-yüksek Search Limit tutarak kapsamı artırıp, sonrasında sonuçları yeniden sıralama veya filtreleme yöntemleriyle en alakalı birkaç taneyi seçip LLMʼe aktarmak idealdir. Bu, kapsamı maksimize ederken modelin bağlam yükünü minimize eder.

Düşük Search Limit, hızlı yanıt ve düşük maliyet gerektiren senaryolarda tercih edilebilir; fakat cevabın ilk birkaç sonuç içinde bulunmama riskini göz önüne almak gerekir.

Çok yüksek Search Limit, büyük bilgi bankalarında (wiki sayfaları, çok sayfalı doküman koleksiyonları) veya sorguların belirsiz olduğu durumlarda fayda sağlayabilir. Ancak etkin bir filtreleme veya yeniden sıralama adımı olmadan kullanılırsa, LLMʼe yük olacak kadar fazla gereksiz bilgi taşınabilir.

Sonuç olarak, veri kümenizin büyüklüğüne, sorgu türlerine ve LLMʼin bağlam kapasitesine bağlı olarak, bu parametreyi ayarlayıp test ederek optimum noktayı belirlemek en iyi yaklaşımdır.

searchThreshold

Arama eşiği, yani searchThreshold parametresi; bir sorguya karşılık dönen sonuçların ne kadar alakalı olması gerektiğini belirleyen bir benzerlik skorudur. Genellikle 0 ile 1 arasında bir değer alır ve özellikle vektör tabanlı arama sistemlerinde kullanılır. Örneğin searchThreshold 0.8 olarak belirlendiğinde, yalnızca 0.8 ve üzeri benzerlik skoruna sahip sonuçlar dikkate alınır, daha düşük skorlardaki eşleşmeler filtrelenir. Bu eşik, düşük kaliteli veya alakasız içeriklerin LLM’e aktarılmasını önleyerek, modelin yalnızca gerçekten konuyla ilgili olan bilgi parçalarıyla çalışmasını sağlar. Böylece, çıktıların doğruluğu ve bağlamsal tutarlılığı artırılır.

Yüksek eşik değeri (0.8+): Sadece çok yüksek benzerliğe sahip içerikler modele iletilir. Bu sayede, konuyla çok az ilgisi olan içerikler elenir ve modelin yanıltıcı bilgiyle karşılaşma olasılığı azalır. Ancak eşik çok yüksekse, hiçbir içerik bu değeri aşamayabilir ve model, “bu konuda bilgi bulunamadı” gibi bir yanıtla dönebilir.

Düşük eşik değeri (0.4-0.6): Daha fazla sayıda sonuç döndürülür, bu da daha geniş bir kapsam sağlar (yüksek recall). Ancak alakasız veya zayıf bağlamlı sonuçların da modele dahil edilme ihtimali yükselir. Bu durumda model, gereksiz bilgilere odaklanabilir, yanlış çıkarımlar yapabilir veya güvenli olmayan yanıtlar üretebilir. Özellikle düşük kaliteli içeriklerin bulunduğu veri kaynaklarında bu durum halüsinasyona yol açabilir.

Sonuç olarak, searchThreshold değeri; arama kalitesi ile kapsayıcılık arasında bir denge kurmak için kritik bir parametredir. Veri setinize, kullanıcı beklentilerine ve sistemin hata toleransına göre ayarlanması önerilir.

Top N

Top N , LLM ajanının arama ya da reranking işlemlerinden sonra modelin bağlamına dahil edilecek sonuç sayısını belirleyen parametredir. Önce searchLimit ile geniş bir sonuç havuzu oluşturulur, ardından reranking ile en alakalı içerikler en üste taşınır. Top N ise bu adaylar arasından kaç tanesinin gerçekten modele verileceğini kontrol eder. Bu sayı genellikle modelin context window kapasitesi (örneğin 4K, 8K ya da 32K token sınırı) ve görevde istenen bilgi derinliğine göre ayarlanır. “Nˮ terimi genellikle yeniden sıralanmış ve filtrelenmiş içerikler için kullanılır.

Düşük Top N değeri: Model yalnızca en alakalı birkaç parçaya erişir. Bu, daha az bilgi karmaşası ve daha net cevaplar anlamına gelir. Ancak bu parçalardan biri eksik ya da yanıltıcıysa, modelin yanıtı da sınırlı olabilir.

Yüksek Top N değeri: Model daha fazla içerik üzerinden cevap üretme şansı bulur. Bu, özellikle çok yönlü analiz veya karşılaştırmalı cevaplar için faydalıdır. Ancak farklı kaynaklardan gelen bilgiler çelişkiliyse, modelin odaklanması zorlaşabilir ve alakasız bilgileri dahil etme riski artar.

Doğruluk gerektiren, tek cevaplı sorular için Top N düşük tutulmalıdır.

Özetleme, karşılaştırma veya çok perspektifli analiz gereken sorular için Top N değeri daha yüksek olabilir. LLMʼin bağlam sınırı mutlaka dikkate alınmalıdır. Örneğin 4096 token sınırı olan bir modele 10 ayrı belge verirseniz, bazıları kısıtlı şekilde işlenebilir ya da model her belgeye yeterli dikkat ayıramayabilir.

Tipik bir RAG (Retrieval-Augmented Generation) senaryosunda aşağıdaki pipeline uygulanır:

Geniş arama yapılır →searchLimit ile çok sayıda aday içerik toplanır.

Sıralama yapılır →reranking ile en alakalı içerikler en üste yerleştirilir.

Seçim yapılır →Top N ile en iyi birkaç içerik LLMʼe gönderilir.

Bu yapı, geniş çaplı veri taraması ile yüksek geri getirim başarısını (recall) korurken, LLMʼin çalışacağı içerik hacmini sınırlayarak kaliteyi ve hızını artırır.

Rerank Threshold (Yeniden Sıralama Eşiği)

Rerank threshold , bir reranking modelinin her doküman için hesapladığı alaka skoruna (relevance score) göre hangi sonuçların filtrelenip hangilerinin LLMʼe iletileceğini belirleyen bir eşik değeridir. Bu skorlar genellikle 0 ile 1 arasında normalize edilir ve değerin 1ʼe yaklaşması, ilgili dokümanın sorguyla çok güçlü bir bağa sahip olduğunu gösterir. Rerank threshold bu skorlar üzerinde bir kesme noktası (cut-off) işlevi görerek, yalnızca yeterince alakalı bulunan belgelerin bağlama dahil edilmesini sağlar. Böylece model, yanıt üretirken yalnızca gerçekten anlamlı içeriklerle çalışır.

Yüksek rerank threshold: Model sadece yüksek puanlı ve doğrudan ilgili belgeleri işler. Bu, gereksiz bilgi yükünü azaltır ve modelin odağını artırır. Ancak eşik çok katıysa, küçük puan farkları nedeniyle değerli belgeler elenebilir. Örneğin bir belge 0.78 puan aldığı için dışarıda bırakılırsa, model potansiyel olarak eksik bir yanıt verebilir.

Düşük rerank threshold: Bu durumda neredeyse tüm belgeler model bağlamına dahil edilir. Bu, hatalı veya alakasız içeriklerin içeri sızmasına neden olabilir. LLM bu metinleri ayrıştırmak zorunda kalır, bu da yanıtın kalitesini düşürebilir veya yanlı/yanlış çıkarımlara yol açabilir. Rerank threshold değeri, sistemin kullanım amacına ve kalite beklentisine göre dikkatle seçilmelidir. En iyi yöntem, farklı sorgularla test yaparak gelen skor dağılımlarını incelemek ve anlamlı bir kesme noktası belirlemektir: Bu dağılım göz önünde bulundurularak, orta yüksek bir eşik çoğu senaryoda iyi bir başlangıç noktasıdır. Kritik doğruluk gereken sistemlerde (örneğin medikal ya da yasal uygulamalar), threshold yüksek tutulmalıdır. Bilgi kapsamı da önemliyse, eşik biraz düşürülüp ardından sayısı sınırlandırılabilir. Rerank threshold ve Top N parametreleri genellikle birlikte çalışır:

Örneğin rerank threshold= 0.6 ve Top N= 5 ise: Top N ile sonuç Önce skorları 0.6ʼnın altında olan belgeler elenir Kalanlar skorlarına göre sıralanır En yüksek 5 tanesi modele verilir.

Bu yaklaşım, hem alakasız içerikleri filtreler hem de en anlamlı belgeleri modele taşıyarak LLMʼin daha doğru ve odaklı yanıtlar üretmesini sağlar.

Uygulama Önerileri

Yaratıcılık ve Tutarlılık Dengesi
Temperature, Top-p ve Top-k parametreleri birlikte modelin çıktısındaki yaratıcılık seviyesini belirler. Eğer yaratıcı, çeşitliliği yüksek metinler istiyorsanız , temperature değerini yükseltmek ve top-p ʼyi geniş tutmak faydalıdır.
Ancak teknik doğruluk ve kararlılık gerektiren senaryolarda, temperature 0.0- 0.4 civarında tutulmalı, top-k sınırlı değerlerde seçilmelidir.

Tekrarlamaların Önüne Geçmek
Presence penalty ve frequency penalty, modelin aynı kelimeleri veya fikirleri tekrar tekrar üretme eğilimini kontrol etmenizi sağlar.

Uzun cevaplarda, modelin sürekli aynı ifadeleri döndürmemesi için her iki cezayı da orta seviyelerde uygulamak genellikle yeterlidir.

Özellikle eğitim amaçlı veya açıklayıcı çıktılar üretirken, bu ayarları optimize etmek metin kalitesini doğrudan etkiler.

Yanıt Uzunluğu ve Format Kontrolü
Max token bir yanıtın toplam uzunluğunu sınırlar. Çok kısa değerler, cevabın erken kesilmesine neden olabilir; çok uzun değerler ise modelin konu dışına çıkmasına yol açabilir. Convert numbers to text gibi formatlayıcı seçenekler de çıktının hedef kitlesine göre ayarlanmalıdır. İnsanlar için sayılar metinle (“on beşˮ), makine işlemeleri için rakamla (“15ˮ) sunulmalıdır.

Arama ve Reranking Stratejisi

Bilgi geri getirme tabanlı sistemlerde (ör. RAG, searchLimit ile önce mümkün olduğunca fazla belge toplanmalı, ardından reranking modeliyle bu belgeler alaka skorlarına göre sıralanmalıdır.

Sonrasında, rerankThreshold ve Top N kombinasyonuyla yalnızca en anlamlı içerikler filtrelenerek LLM’e sunulmalıdır. Bu yapı, gereksiz metin yükünü azaltırken, modelin daha doğru ve odaklanmış yanıtlar üretmesini sağlar.

SkyStudioʼda Bu Parametreler Nasıl Kullanılıyor?

Bu yazıda bahsedilen tüm parametreler SkyStudio platformunda kullanıcıların doğrudan kontrol edebileceği şekilde kullanılabilir. Her asistan için bu değerler ayrı ayrı tanımlanabilir; bu sayede sistemin davranışı, görev türüne ve bağlama göre hassas biçimde ayarlanabilir.

Bilgi odaklı bir asistanda yüksek doğruluk ve filtreleme öncelikliyken; yaratıcı metin üretimi yapan bir senaryoda daha özgür ve geniş bir üretim alanı tanımak gerekebilir. SkyStudio, bu ihtiyaçlara göre yapılandırmayı mümkün kılarak hem deneysel ayarlarla çalışmak isteyen kullanıcılara hem de güvenilir sistem çıktıları bekleyen profesyonel kullanıcılara esnek bir kontrol alanı sunar.

Bu parametrelerin sistem davranışına olan etkisini anlamak ve buna göre ince ayar yapmak, LLM tabanlı bir asistanın başarısında belirleyici rol oynar. SkyStudio, bu süreci sadeleştirerek hem teknik hem pratik seviyede daha iyi sonuçlara ulaşmanızı destekler.