Metodoloji

Deeplomap'in her gün binlerce haber kaynağından gelen ham veriyi nasıl yapılandırılmış, bağlamlı diplomatik içgörüye dönüştürdüğünü açıkça anlatır. Şeffaflık için boru hattının her aşamasını — neyin kural-tabanlı, neyin AI olduğu dahil — burada belgeliyoruz.

1. Veri Toplama

Kaynak havuzu: 40+ premium haber kaynağı — Reuters, AP, AFP, BBC, Al Jazeera, Deutsche Welle (EN+TR), Foreign Policy, Defense News, Bloomberg, Anadolu Ajansı, TRT, NTV, Hürriyet, BBC Türkçe ve bölgesel yayınlar.

Toplama yöntemi: RSS / Atom besleme okuma, resmi MFA bültenleri için periyodik scrape. Tam metin saklamayız — yalnızca başlık, kısa açıklama, AI tarafından üretilmiş özet ve kaynağa link.

Sıklık: Worker prosesi her 30 saniyede tüm kaynakları paralel olarak tarar; ortalama gecikme 1-2 dakika.

2. Ön Eleme ve İlgililik Değerlendirmesi

Bu aşama tamamen kural-tabanlıdır — hiçbir adımda AI çağrısı yapılmaz. Her haber şu elemelerden geçer:

URL ve başlık tekilleştirme:daha önce işlenmiş URL veya benzer başlık varsa atlanır. Benzerlik ölçütü: karakter-bigram (Sørensen-Dice) skoru > 0.75 ve SHA-256 başlık hash benzersizliği.
Anahtar kelime kara listesi: spor, magazin, lifestyle, yerel asayiş ve ürün lansmanı içeren haberler desen eşleşmesiyle elenir.
Heuristik sınıflandırma ve skorlama: kalan haberler anahtar kelime ve coğrafya sözlükleriyle değerlendirilir; olay tipi, etki skoru, metin netlik sinyali (dahili), ülke/şehir ve etiketler bu kurallarla atanır.
Etki eşiği: hikaye katmanına yalnızca impactScore ≥ 45 olan olaylar girer; daha düşük etkili olaylar olay akışında görünür kalır ama bir hikayeye bağlanmaz.

3. Yapay Zeka Analizi ve RAG Mimarisi

Yapay zekayı stratejik yerlerde kullanıyoruz. Veri toplama, etki skoru ve metin-netlik sinyali skorlaması, konum çıkarımı ve etiketleme tamamen kural-tabanlı (heuristik) yapılır — bu aşamalarda model çağrısı yapılmaz. AI üç yerde devreye girer: (1) vektörlü arama (retrieval) için embedding üretimi, (2) hikaye özetleri, (3) hikaye sayfası bağlam bloğu. Bu yapı, hem maliyeti kontrol altında tutar hem de hatasız tekrar üretilebilir bir veri katmanı sağlar.

Embedding (RAG çekirdeği): Vertex AI gemini-embedding-001 modeli (768-boyut) ile her olayın başlığı ve özetinden vektör türetilir; PostgreSQL pgvector HNSW indeksi üzerinde saklanır. Soru-cevap (RAG retrieval) işlevinde (deeplomap.com/sor) kullanıcı sorusu gömülür ve vektörel yakınlık ile ilgili olaylar taranır; sonuçlar bağlamsal analiz için bir LLM'e iletilir. Kümeleme algoritmasında embedding yalnızca tarama için değil, doğrudan eşleştirme sinyal olarak da kullanılır — cross-language olaylar vektörel benzerlik sayesinde daha iyi birleştirilir.

LLM seçimi (çoklu sağlayıcı): Özet ve bağlam üretimi için DeepSeek-V4-Pro, Gemini veya OpenAI kullanılır — sağlayıcı seçimi maliyet/kalite kararıyla yapılır. Her çağrı JSON mode ile katı yapı zorlanır; boş yanıt gelirse tek seferlik yeniden deneme yapılır.

Bir hikayenin özeti üretildiğinde model şu yapıyı çıkarır: olayların ortak çerçevesi, kısa anlatı özeti ve öne çıkan aktörler. Olay düzeyindeki temel veriler (olay tipi, etki skoru ve metin-netlik sinyali, ülke/şehir, etiketler) ise heuristik katmandan gelir.

Provenance: Her AI üretimi için kullanılan model adı, prompt sürümü, token sayısı ve tahmini maliyet veritabanında saklanır; bu bilgiler okuma API'si üzerinden erişilebilir.

4. Hikaye Kümeleme

Aynı gerçek-dünya olayını kapsayan ayrı haberler (örnek: 30 ayrı haber kaynağı Sudan'daki tek bir krizi bildiriyor) tek bir Hikaye (Story) altında toplanır.

Algoritma: Kümeleme hibrit sinyal kullanır: vektörel benzerlik (pgvector embedding), varlık-duyarlı kelime benzerliği ve ortak aktör sinyalleri. Belirli bir etki eşiğini (impactScore ≥ 45) aşan yeni bir olay, son 7 gündeki "devam eden" hikayelerle karşılaştırılır ve aşağıdaki koşulların tümü sağlanırsa o hikayeye bağlanır:

Aynı ülke: olay ve hikayenin ülke kodları çelişmemeli (bir taraf bilinmiyorsa metin/aktör sinyali aranır).
Zaman penceresi: hikayenin son olayına 72 saatten fazla uzak olmamalı.
Benzerlik sinyalleri (herhangi biri): (a) vektörel benzerlik ≥ 0.75 (embedding-tabanlı), veya (b) en az iki ayırt-edici ortak kişi (lider/bakan), veya (c) bir ortak kişi + kelime benzerliği ≥ 0.28, veya (d) kelime benzerliği tek başına ≥ 0.28.

Başlık benzerliği Türkçe/İngilizce duyarlı, kelime-tabanlı Sørensen-Dice katsayısıyla hesaplanır: Türkçe harfler (ç ş ğ ö ü ı İ) korunur ve dilbilgisel durak kelimeleri (stopword) düşülür, böylece yalnızca içerik kelimeleri karşılaştırılır.

Vektörel benzerlik embedding mesafesi üzerinden hesaplanır ve diller arası olayları (örnek: TR haber + EN haber aynı kriz) semantik anlamda birleştirir. Embedding kullanımı, kelime hash'leri farklı olan cross-language olayları çoğu zaman doğru biçimde kümelemesine olanak tanır.

Aktör koruması:Trump, Putin gibi her yerde geçen "merkez" aktörler (≥ 60 olay) ile yanlış çıkarılmış nadir isimler (< 3 olay) kümeleme sinyali olarak sayılmaz — yalnızca ayırt-edici aktörler (~3-60 olay) bağlantı kurar. Hiçbir koşulu sağlamayan olay yeni bir hikaye başlatır.

Yaşam döngüsü: 14 gün boyunca yeni olay almayan hikayeler otomatik "kapatıldı" olarak işaretlenir (isOngoing=false).

5. Aktör (Entity) Çözümlemesi

Liderler, bakanlar ve önemli aktörler Wikidata Q-ID'leri ile kalıcı kimliklere bağlanır. Örnek: Recep Tayyip Erdoğan = Q199662.

"Erdoğan", "President Erdoğan", "Turkish president", "Cumhurbaşkanı Erdoğan" gibi farklı kullanımlar PersonAlias tablosu üzerinden aynı kişiye bağlanır. Bu sayede lider profili sayfası, ismin geçtiği tüm olayları toplar.

Devlet ve hükümet başkanları her 24 saatte bir Wikidata SPARQL sorgusuyla senkronize edilir.

6. Çeviri

Her olay orijinal dilinde saklanır; karşı dildeki (TR ↔ EN) çeviri okuma anında, ilk talepte üretilir (lazy). Çeviri için ücretsiz Google çeviri uç noktası kullanılır — AI modeli değil — ve sonuç EventTranslation tablosunda önbelleğe alınır, böylece sonraki okumalar ağ çağrısı yapmaz. Çevrilmiş içerikler UI'da küçük bir "çevrildi" işaretiyle gösterilir; orijinal metne tek tıkla erişilir.

Sınırlamalar ve Açık Sorunlar

Şeffaflık adına bilinen sınırlamalar:

AI halüsinasyon riski: Model bazen gerçeği yansıtmayan eventType, impactScore veya people verisi üretebilir. Her olayın kaynak linki sağlanır; verilere kaynaktan teyit edilerek bağımlı olunmamalıdır.
Diller arası kümeleme: TR ve EN aynı olayı bildirdiğinde embedding vektörel benzerlik sayesinde çoğu zaman doğru biçimde birleştirilir. Ancak çok farklı bağlamda yazılan aynı olay (örnek: A ülkesi'nin resmî açıklaması vs. B ülkesi'nin tepkisi), semantik benzerlik daha düşük kalabilir ve ayrı hikaye olarak kalabilir. Bu durumda ortak aktör sinyali bağlantı kurabilir.
Editorial katman yok: Şu an tüm içerik AI üretimidir. Kriz dosyaları (Faz 3) için insan-onaylı içerik eklenecek.
Coğrafi kapsam: Türkiye/MENA /Karadeniz havzası ilk öncelik. Latin Amerika, Sahra Altı Afrika ve Pasifik kaynak çeşitliliği şu an daha sınırlı.

Akademik Kullanım

Public read API /api/v1/* ücretsiz erişim sağlar (60 req/dakika IP başına). Veri ihracı (CSV/JSON), veri sözlüğü, atıf formatı ve API dokümantasyonu için Açık Veri sayfasına bakın.

Bu döküman canlıdır ve algoritma değişiklikleriyle birlikte güncellenir. Son güncelleme: 2026-06-27.