Diğer öğelerle birlikte bir arka plan üzerinde bir llm görüntüsü

LLM'lerin İçinde: ChatGPT Nasıl Düşünüyor

Luís Antônio Costa'nın avatarı
LLM'lerin ne olduğunu ve nasıl çalıştığını, ChatGPT gibi AI ajanlarının arkasındaki beyinleri anlayın

Kendisine nasıl olduğu sorulan herkese ChatGPT, günümüzün en popüler yapay zeka ajanı çalıştığında, pek çok kişinin dilinde şu cevap belirecektir: yapay zeka. Ama bu cevap çok belirsiz. Günümüzde Bilgisayar alanında en fazla araştırma ve geliştirme yapılan çalışma alanlarından biri olmasına rağmen, yapay zeka birçok bilimsel temayı kapsamaktadır.

Bunlardan biri de ChatGPT'nin ve internette bulunan çoğu yapay zeka aracısının çalışma şeklinin arkasındaki anahtar olan LLM'lerdir. Bu yazımızda bu kavramın yapay zekayı ve dünyamızı nasıl devrim niteliğinde değiştirdiğini detaylıca inceleyeceğiz.

Büyük Dil Modelleri (LLM) Nedir?

Büyük Dil Modelleri (Portekizce'de LLM'ler, Büyük Dil Modelleri) algoritmalarıdır Derin Öğrenme (Derin Öğrenme, Portekizce) bir dizi görevi yerine getirme yeteneğine sahip Doğal Dil İşleme (Doğal Dil İşleme, Portekizce). Vay canına, ne kadar çok kısaltma var değil mi?

Hukuk alanında Yüksek Lisans (LL.M.) programları dönüştürücü modeller kullanır ve büyük veri kümeleri kullanılarak eğitilir. Popüler veri kümelerine bazı örnekler şunlardır: LAION-2B-tr, CCW uzantısı e Vikimetin-103. Bir transformatör modeli arabaya dönüşen bir robot gibi görünebilir, ancak yapay zeka alanında LLM için en yaygın mimaridir.

Transformatör aşağıdakilerden oluşur: kodlayıcı (kodlayıcı, Portekizce) ve bir şifre çözücü (kod çözücü, Portekizce). Temel olarak kodlayıcı, bir cümlenin veya metnin kelimelerini belirteç adı verilen küçük parçalara ayırmaktan sorumludur ve kod çözücü, bu belirteçler arasındaki ilişkileri belirlemek için matematiksel işlemler gerçekleştirir.

Basitleştirilmiş trafo mimarisi
Transformer mimarisi, kelimeleri ve cümleleri kodlayıcıda kodlar ve bunları LLM tarafından kullanılacak kod çözücü ile çözer. (Görsel: Showmetech)

Transformatörler ile yıllar önce kullanılan mimari arasındaki büyük fark, LSTM (Uzun Kısa Süreli Bellek, veya Uzun Kısa Dönemli Bellek), dönüştürücülerin öz dikkat mekanizmalarıyla çalışmasıdır, yani bir cümlenin bölümlerini veya hatta bağlamını göz önünde bulundurarak tahminler üretmek için daha hızlı öğrenebilmektedirler.

Hukuk alanında Yüksek Lisans (LL.M.) programları, insan dilini işleyebilmenin yanı sıra protein yapılarını analiz etme ve programlama kodu üretme gibi diğer görevleri de yerine getirebilen çok yönlü yapay zeka sistemleridir. Hukuk alanındaki yüksek lisans programlarının etkili bir şekilde çalışabilmesi için, metin sınıflandırması, özetleme ve soru cevaplama gibi işlevleri ele almak üzere önceden eğitim ve dikkatli ayarlamalar yapılması gerekir; bu da onları sağlık, finans ve eğlence gibi sektörler için değerli kılar.

Temel bileşenler

Hukuk Yüksek Lisansı (LL.M.) çok katmanlı sinir ağlarından oluşur. Bir sinir ağında (Sinir ağı, İngilizce'de) temel olarak bir değişkenin girdi olarak kullanılması, bir veya daha fazla katman tarafından farklı ağırlıklar ve matematiksel denklemlerle işlenmesi ve bir çıktı değerinin üretilmesidir.

LLM'lerde bulunan ilk sinir ağı türü, yerleştirme katmanıdır (gömme katmanı, İngilizce). Girdinin semantiğini ve sözdizimsel anlamını yakalayarak yerleştirme sürecinden sorumludur, böylece model bağlamı anlayabilir.

Daha sonra, gömülü girdileri dönüştüren, birbirine bağlı birden fazla katmandan oluşan ileri beslemeli katman (FFN, Feedforward Network) vardır. Bu süreçte bu katmanlar, modelin daha üst düzey soyutlamalar toplamasına, yani metin girişiyle kullanıcının niyetini anlamasına olanak tanır.

Bir llm'nin temel bileşenleri açıklandı
Yapay Sinir Ağı, Gömme Katmanı ve İleri Beslemeli Ağ, bir LLM'nin işleyişi için temel bileşenlerdir. (Görsel: Showmetech)

Daha sonra, giriş metnindeki kelimeleri sırayla yorumlayan tekrarlayan katmanımız var. Cümledeki kelimeler arasındaki ilişkiyi yakalamakla görevlidir.

Son olarak, LLM'nin atanan görevle ilgili olan girdi metninin tekil kısımlarına odaklanmasını sağlayan dikkat mekanizmamız var. Bu katman modelin en uygun ve doğru çıktıları üretmesini sağlar.

Nasıl çalışıyorlar?

Artık LLM'lerin ne olduğunu ve temel bileşenlerinin ne olduğunu öğrendiğimize göre, nasıl çalıştıklarını daha net anlayabiliriz. Temel olarak, transformatör tabanlı LLM'ler bir girdi alır, onu kodlar ve daha sonra tahmin edilen bir çıktı üretmek için kodunu çözer. Ancak bir LLM'nin bir metin girdisini alıp öngörülen çıktıyı üretebilmesi için, genel işlevleri yerine getirebilmesi için eğitim alması ve belirli görevleri yerine getirebilmesi için ince ayar yapması gerekir.

Ön eğitim (Ön eğitim, İngilizce'de) alanında klasik bir işlemdir Makine öğrenme (Makine öğrenmesiYapay Zeka içerisinde. Adından da anlaşılacağı gibi bu süreç, trilyonlarca kelimeden oluşan büyük metinsel veri kümelerini kullanarak LLM'lerin ön eğitimini içerir. Vikipedi, GitHub, diğerleri arasında. Zaten LLM'nin de bir yerden öğrenmesi gerekiyor, küçük bir çocuk gibi değil mi?

Bu aşamada, LLM, gözetimsiz öğrenme adı verilen bir öğrenme gerçekleştirir (Denetimsiz Öğrenme, İngilizce'de) – veri kümelerinin belirli işleme talimatları olmadan basitçe okunduğu bir işlem. Başka bir deyişle, bir “eğitmen” olmadan, LLM’nin kendi yapay zeka algoritması, her kelimenin anlamını ve aralarındaki ilişkileri öğrenmekten sorumludur. Ayrıca LLM, kelimeleri bağlama göre ayırt etmeyi de öğretir. Örneğin, “sağ”ın “doğru” anlamına mı geldiğini yoksa sadece “solun zıttı” mı olduğunu anlamayı öğrenir.

Şimdi ince ayar süreci (İnce ayar, İngilizce'de) LLM'yi metin çevirisi gibi belirli görevleri etkin bir şekilde yerine getirmek ve performansını optimize etmek için hassas bir şekilde "ayarlamaya" yarar. İstemleri (LLM'ye verilen soruları ve talimatları) ayarlamak, modeli belirli bir görevi yerine getirecek şekilde eğitebildiği için bir tür ince ayar görevi görür.

Makine öğrenimi modelleri: ön eğitim, denetimsiz öğrenme ve ince ayar.
LLM programının tasarım süreci 3 ana adımdan oluşur: Ön Eğitim, Denetimsiz Öğrenme ve İnce Ayar. (Görsel: Showmetech)

Büyük bir dil modelinin çeviri gibi belirli bir görevi yerine getirebilmesi için, bu belirli göreve göre ayarlanmış olması gerekir. İnce ayar, belirli görevler için performansı optimize eder.

İstem ayarlama, ince ayarlamaya benzer bir işleve sahiptir; bir modeli, birkaç denemeli istemler veya sıfır denemeli istemler aracılığıyla belirli bir görevi yerine getirecek şekilde eğitir. Aşağıda birkaç karelik bir komut kullanılarak yapılan bir "duygu analizi" egzersizine bir örnek verilmiştir:

Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo

Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo

Bu örnekte elde edilen sonuçlara dayanarak, LLM, “korkunç” kelimesinin semantik anlamı ve zıt bir örnek verildiği için, ikinci örnekteki kullanıcının duygusunun “olumsuz” olduğunu anlayacaktır.

Kullanım senaryoları

Daha önce de belirttiğimiz gibi, LLM'ler çeşitli amaçlar için kullanılabilir:

  • Bilgi edinme: Bu durumda Google veya Bing gibi web arama motorlarında kullanımını düşünebiliriz. Bir kullanıcı bu servislerin arama özelliğini kullandığında, isteğine yanıt biçiminde bilgi üretmek için LLM'leri kullanmış olur. Hukuk alanında Yüksek Lisans (LL.M) derecesine sahip olanlar, bilgiyi geri çağırabilir, özetleyebilir ve kullanıcıyla sohbet şeklinde yanıt verebilirler.
  • Metin ve programlama kodu üretimi:LLM'ler, ChatGPT gibi Üretken Yapay Zeka'nın arkasındaki ana "motordur" ve girdilere ve istemlere dayalı olarak metin ve programlama kodu üretebilirler. Örneğin chatGPT, desenleri anlayabilir ve "Manuel Bandeira tarzında çiçekler hakkında bir şiir yaz" veya "Bir film listesini alfabetik sıraya göre sıralayabilen bir Python kodu yaz" gibi kullanıcı isteklerine etkili bir şekilde yanıt verebilir.
  • Sohbet Robotları ve Konuşma Yapay Zekaları: Hukuk alanındaki yüksek lisans (LL.M) öğrencileri, tüketicilerle sohbet eden, onların soru ve endişelerinin anlamını yorumlayan ve uygun yanıtlar veya rehberlik sunan chatbot temsilcileri aracılığıyla müşteri hizmetleri sunabiliyor.

Bu kullanım senaryolarına ek olarak, LLM'ler teknoloji, sağlık ve bilim, pazarlama, hukuk ve ayrıca bankacılık sistemlerinde kullanım için gelecek vaat eden bir yapay zeka aracı olduğunu kanıtlıyor. Size bir fikir vermek gerekirse, LLM'ler şu anda yüksek bir doğruluk derecesiyle tahmin edebiliyorlar. meme kanserinin oluşumu hücre örneklerinin birçok deneyimli klinisyenden daha yüksek bir doğruluk seviyesiyle basitçe analiz edilmesi.

Grafikli bir arka planda doktorla konuşan robot
Sağlık sektörü, görev otomasyonu için Hukuk Yüksek Lisansı (LL.M.) derecesini kullanmaktan büyük ölçüde faydalanabilir. (Görsel: Reprodüksiyon/Cogitotech)

LLM'ler ve Üretken Önceden Eğitimli Transformatör (GPT)

O Üretken Ön Eğitimli Transformatör (GPT), transformatör mimarisi kullanan ve OpenAI şirketi tarafından geliştirilen özel bir LLM türüdür. Doğal dili (Portekizce veya İngilizce gibi) son derece etkili ve gerçekçi bir şekilde anlamak, üretmek ve işlemek için tasarlanmıştır.

İsmini parçalara ayırdığımızda GPT'nin ne olduğunu daha iyi anlayabiliriz:

  • üretken (Üretici, Portekizce): modelin metin ürettiğini, yani yeni cümleler, cevaplar, özetler, kodlar vb. üretebildiğini gösterir.
  • Ön Eğitimli (Önceden eğitilmiş, Portekizce): Bu, internetten kitaplar, makaleler, web siteleri ve diğerleri gibi büyük miktarda metin üzerinde önceden eğitildiği anlamına gelir. Daha sonra belirli görevlere göre ayarlanabilir.
  • Trafo: Daha önce de belirttiğimiz gibi modelin temelini oluşturan sinir ağı mimarisidir. Son derece paralel hale getirilebilir (birden fazla görevi aynı anda yürütebilir) ve uzun metin dizilerini işlemede etkilidir.
Openia chatgpt bir beyin ve elektronik devrelerle birlikte
OpenAI şirketinin geliştirdiği ChatGPT, GPT modelini kullanan en ünlü yapay zeka aracıdır. (Görsel: Reprodüksiyon/Knowledgegiate)

GPT'yi diğer LLM'lerden ayıran en büyük fark, 3 farklı süreçten oluşan eğitim aşamasıdır:

  • Ön eğitim: İnternetten, kitaplardan, hatta video ve müziklerden büyük miktarda veri çıkarılıyor ve daha sonra işlenerek tokenlere dönüştürülüyor.
  • İnce ayar talimatları: Burada modele, belirli talimatlara nasıl yanıt vermesi gerektiği "öğretilir" ve yanıtları daha doğru olacak şekilde hizalanır.
  • İnsan Geribildirimi ile Güçlendirmeli Öğrenme: İnce ayara benzer şekilde, burada "öğretim", yapay zekanın tekrarlar ve harici bir etken tarafından sağlanan bilgiler yoluyla neyin "doğru" neyin "yanlış" olduğunu öğrendiği "pekiştirmeli öğrenme" sürecini başlatan insan geri bildirimi yoluyla yapılır; bu durumda yapay zekayı kullanan kullanıcıdır.

Tarih: milyarlarca kelimeden karmaşık metinlere

Dil modellerindeki patlama 2017'de gerçekleşmiş olsa da, 1990'dan bu yana IBM'in hizalama modelleri istatistiksel dil modellemesinde öncü olmuştur. 2001 yılında 3 milyon kelime üzerinde eğitilen bir model, "son teknoloji" Metinleri yorumlama ve tutarlı cümleler kurma konusunda doğruluk açısından.

Yapay zekâ ve teknoloji odak noktasında, yenilikçi kaynaklar ve modern teknolojik gelişmeler vurgulanıyor.
Milyonlarca LLM programı giderek daha güçlü hale geldi ve daha karmaşık görevleri yerine getirmeye başladı. (Görsel: Reprodüksiyon/Tekillik Merkezi)

2012'den itibaren Nöral ağlar Yapay zeka dünyasında daha da öne çıktı ve kısa sürede dil görevlerinde kullanılmaya başlandı. Google, 2016 yılında Yapay Makine Çevirisi (Portekizce'de Nöral Makine Çevirisi) bu kavrama dayalı modeller kullanılarak. 2018 yılında OpenAI şirketi, LLM derecesine dayalı yapay zeka ajanlarının geliştirilmesine odaklandı ve GPT-1'i test için piyasaya sürdü ve ancak ertesi yıl GPT-2, potansiyel etik olmayan kullanımları nedeniyle kamuoyunun dikkatini çekmeye başladı.

2020 yılında GPT 3 yalnızca API üzerinden kısıtlı erişimle geldi, ancak ChatGPT (GPT-2022 tarafından "güçlendirilen" yapay zeka aracı) ancak 3 yılında dünya çapında kamuoyunun dikkatini çekti.
GPT-4'ün çok modlu kabiliyetlerle 2023 yılında fırlatılması planlanıyor ancak teknik detaylar henüz açıklanmadı. 2024 yılında OpenAI, o1 modeli, uzun mantık zincirleri üretmeye odaklanmıştır. Bu araçlar, çeşitli araştırma alanlarında LLM'lerin yaygın olarak benimsenmesini sağlamıştır.

Chatgpt, yapay zeka, sanal asistan, teknoloji alanındaki yenilikler.
2022 yılı itibarıyla LLM'ler, tüm zamanların en popüler yapay zeka ajanlarından biri olan ChatGPT'de kullanıldığında dünya çapında öne çıktı. (Görsel: Reprodüksiyon/OpenAI)

2024 itibarıyla, en büyük ve en verimli LLM'lerin tümü transformatör mimarisine dayanmaktadır ve bazı araştırmacılar diğer mimarilerle deneyler ve testler yapmaktadır, örneğin: Tekrarlayan Sinir Ağları (Tekrarlayan Sinir Ağları, Portekizce).

LLM'lerin Faydaları ve Sınırlamaları

Uygulama yelpazesi oldukça geniş olan Hukuk Yüksek Lisansı (LL.M.) öğrencilerin problem çözme becerilerine büyük katkı sağlar; çünkü bilgiyi kullanıcıların anlayabileceği şekilde açık ve basit bir üslupla sunar. Ayrıca dil çevirisi, cümle tamamlama, duygu analizi, soru cevaplama, matematiksel denklemler ve daha fazlası için kullanılabilirler.

Hukuk alanındaki LLM'lerin performansı, daha fazla veri ve parametre eklendikçe sürekli olarak artmaktadır. Başka bir deyişle, ne kadar çok öğrenirseniz, o kadar iyi olursunuz. Ayrıca, büyük dil modelleri “bağlam içinde öğrenme” adı verilen şeyi sergileyebilir. Bir LLM programı önceden eğitildikten sonra, az sayıda çekimlik komut istemi, modelin herhangi bir ek parametre olmaksızın komut isteminden öğrenmesini sağlar. Bu sayede sürekli öğreniyor.

Öğrenmeyi bağlam içinde göstererek, Hukuk Yüksek Lisansı (LL.M.) programları hızlı öğrenirler çünkü eğitim için ek bir ağırlığa, kaynağa ve parametreye ihtiyaç duymazlar. Çok fazla örneğe ihtiyaç duymamaları anlamında daha "zeki" olmalarını sağlayacak kadar hızlıdırlar.

Beyin birden fazla kaynaktan öğreniyor
Tüm yapay zeka tabanlı algoritmalarda olduğu gibi, LLM'ler tükettikleri ve analiz ettikleri veri miktarı arttıkça daha iyi öğrenirler. (Görsel: Üretim/Yerleşik)

Hukuk alanındaki yüksek lisans programlarının en önemli özelliklerinden biri öngörülemeyen sorulara cevap verebilme yetenekleridir. Örneğin, geleneksel bir bilgisayar programı komutları kabul edilmiş sözdiziminde veya belirli bir kullanıcı girdisi kümesinden alır. Öte yandan, bir LLM doğal insan diline yanıt verebilir ve yapılandırılmamış bir soruyu veya isteği mantıklı bir şekilde yanıtlamak için veri analizini kullanabilir. Tipik bir bilgisayar programı "Tarihin en büyük beş rock grubu hangileridir?" gibi bir soruyu tanımazken, bir LLM programı beş gruptan oluşan bir liste ve neden en iyi olduklarına dair makul derecede ikna edici bir gerekçeyle yanıt verebilir.

Ancak LLM'ler sağladıkları bilgiler açısından ancak kendilerine ulaşan veriler kadar güvenilir olabilirler. Ön eğitim aşamasında yanlış bilgi almaları durumunda, kullanıcı sorularına yanlış bilgi vererek yanıt vereceklerdir. Bazen LLM'ler doğru bir cevap üretemediklerinde cevaplar üreterek ve hatta sahte edebi kaynaklar kullanarak "halüsinasyon" görebilirler.

Örneğin, 2022'de haber ajansı Fast Company ChatGPT'ye şirketin önceki mali çeyreği hakkında soru soruldu Tesla. ChatGPT yanıt olarak tutarlı bir haber yazısı sunsa da, haberde yer alan bilgilerin çoğu uydurmaydı. Yapay zeka tabanlı bir sistem olduğu için sürekli geliştiği biliniyor ancak LLM'lerin ürettiği cevapların %100'üne güvenmek hala yanlıştır.

Güvenlik açısından, LLM tabanlı kullanıcı odaklı uygulamalar diğer uygulamalar kadar hatalara açıktır. Hukuk Yüksek Lisansı (LL.M.) programları, tehlikeli veya etik olmayan yanıtlar da dahil olmak üzere, belirli türde yanıtları diğerlerine göre daha iyi sağlamak için kötü niyetli girdiler yoluyla da manipüle edilebilir.

Lego chatbot görevlerde hata yapıyor
LLM'lere dayalı yapay zeka sistemleri henüz tam olarak güvenilir değil ve hata yapabilir, yanlış bilgilerle yanıt verebilir. (Görsel: Reprodüksiyon/IEEE Spektrumu)

Son olarak, LLM'lerdeki güvenlik sorunlarından biri de kullanıcıların kendi üretkenliklerini artırmak için güvenli ve gizli verileri yükleyebilmeleridir. Ancak LLM'ler aldıkları girdileri modellerini daha fazla eğitmek için kullanırlar ve diğer kullanıcıların sorgularına yanıt olarak hassas verileri ifşa edebilecekleri için güvenli kasalar olarak tasarlanmamışlardır.

LLM'ler ve kelimelerin ardındaki zeka

Dev bir kütüphanede serbest bırakılan bir çocuk gibi, LLM'ler de büyük miktardaki verilere dayanarak doğal insan dilini anlamayı ve yeniden üretmeyi öğrenen akıllı yapay zeka sistemleridir. Sıradan kullanıcılara pek çok fayda sağlamasına ve profesyonel ortamda güçlü bir yardımcı araç haline gelmesine rağmen, LLM'lerin yetenekleri ve tehlikeleri hâlâ çok dikkatli bir şekilde incelenmelidir.

Peki siz bu yazıda LLM ile ilgili yapılan açıklamayı nasıl buldunuz? Görüşlerinizi yorumlara yazın.

daha fazla gör

Kaynaklar: Elasticsearch, BulutÜcreti, IBM

Tarafından gözden geçirildi Tiago Rodrigues 16/04/2025 tarihinde


Showmetech hakkında daha fazlasını keşfedin

En son haberlerimizi e-postayla almak için kaydolun.

İlgili Yazılar