Metodoloji

Deeplomap her gün binlerce haber kaynağından gelen ham veriyi nasıl yapılandırılmış, bağlamlı diplomatik içgörüye dönüştürdüğünü açıkça anlatır. Akademik şeffaflık ve tekrar üretilebilirlik temel ilkelerimizdir.

1. Veri Toplama

Kaynak havuzu: 40+ premium haber kaynağı — Reuters, AP, AFP, BBC, Al Jazeera, Deutsche Welle (EN+TR), Foreign Policy, Defense News, Bloomberg, Anadolu Ajansı, TRT, NTV, Hürriyet, BBC Türkçe ve bölgesel yayınlar.

Toplama yöntemi: RSS / Atom besleme okuma, resmi MFA bültenleri için periyodik scrape. Tam metin saklamayız — yalnızca başlık, kısa açıklama, AI tarafından üretilmiş özet ve kaynağa link.

Sıklık: Worker prosesi her 30 saniyede tüm kaynakları paralel olarak tarar; ortalama gecikme 1-2 dakika.

2. Ön Eleme ve İlgililik Değerlendirmesi

Her haber dört aşamadan geçer:

  1. URL ve başlık tekilleştirme: daha önce işlenmiş URL veya benzer başlık varsa atlanır. Benzerlik ölçütü: bigram (Sørensen-Dice) skoru > 0.75 ve SHA-256 başlık hash benzersizliği.
  2. Anahtar kelime kara listesi: spor, magazin, lifestyle, yerel asayiş ve ürün lansmanı içeren haberler AI çağrısı yapılmadan elenir.
  3. AI ilgililik kontrolü: Geçen haberler bir küçük modelle (triage) "küresel/bölgesel diplomatik, askeri, siyasi veya ekonomik bir olay mı?" sorusuna karşı değerlendirilir. isRelevant=false olanlar elenir.
  4. Etki eşiği: impactScore < 40 olan olaylar yerel/önemsiz kabul edilip dahil edilmez.

3. Yapay Zeka Analizi

Eleme aşamasını geçen her haber tam analizden geçer. Model çıktısı her olay için aşağıdaki yapılandırılmış JSON'u üretir:

  • Olay tipi (SECURITY / DIPLOMATIC / ECONOMIC / POLITICAL / HUMANITARIAN)
  • Etki skoru (0-100) ve güvenilirlik skoru (0-100)
  • Coğrafi konum: şehir ve ISO-2 ülke kodu
  • Kısa özet (1-2 cümle)
  • Taraflılık skoru (biasScore) ve propaganda olasılığı (propagandaProb)
  • İngilizce etiketler (NATO, missile, election, vb.)
  • İlgili kişiler: isim, rol, olay ile ilişkisi

Provenance: Her AI üretimi için kullanılan model adı, prompt sürümü, token sayısı ve maliyet veritabanında saklanır. Akademik referans için tüm bu bilgilere API üzerinden erişilebilir.

Model katmanları:

  • Triage: Claude Haiku 4.5 (cheap relevance check)
  • Analiz: Claude Sonnet 4.6 veya Liquid LFM 1.2b (default, free)
  • Embedding: OpenAI text-embedding-3-small (1536 boyut)

4. Hikaye Kümeleme

Aynı gerçek-dünya olayını kapsayan ayrı haberler (örnek: 30 ayrı haber kaynağı Sudan'daki tek bir krizi bildiriyor) tek bir Hikaye (Story) altında toplanır.

Algoritma: her olayın başlığı + açıklaması için 1536 boyutlu embedding vektörü hesaplanır. Yeni olay, son 7 gündeki "devam eden" hikayelerin centroid'leri ile cosine similarity karşılaştırılır. Eşik: ≥ 0.78 ve aynı ülke kodu (countryCode gating). Eşik altında kalan olaylar yeni bir hikaye başlatır.

Yaşam döngüsü: 14 gün boyunca yeni olay almayan hikayeler otomatik "kapatıldı" olarak işaretlenir (isOngoing=false).

5. Aktör (Entity) Çözümlemesi

Liderler, bakanlar ve önemli aktörler Wikidata Q-ID'leri ile kalıcı kimliklere bağlanır. Örnek: Recep Tayyip Erdoğan = Q199662.

"Erdoğan", "President Erdoğan", "Turkish president", "Cumhurbaşkanı Erdoğan" gibi farklı kullanımlar PersonAlias tablosu üzerinden aynı kişiye bağlanır. Bu sayede lider profili sayfası, ismin geçtiği tüm olayları toplar.

Devlet ve hükümet başkanları her 24 saatte bir Wikidata SPARQL sorgusuyla senkronize edilir.

6. Çeviri

Her olay orijinal dilinde saklanır, sisteme girer girmez karşı dile (TR ↔ EN) otomatik çevirisi yapılır. Çeviri AI ile üretilir ve EventTranslation tablosunda saklanır. Çevrilmiş içerikler UI'da küçük bir "çevrildi" işaretiyle gösterilir; orijinal metne tek tıkla erişilir.

Sınırlamalar ve Açık Sorunlar

Şeffaflık adına bilinen sınırlamalar:

  • AI halüsinasyon riski: Model bazen gerçeği yansıtmayan eventType, impactScore veya people verisi üretebilir. Her olayın kaynak linki sağlanır; verilere kaynaktan teyit edilerek bağımlı olunmamalıdır.
  • Cross-language deduplication eksik: TR ve EN aynı olayı bildirdiğinde başlık hash'leri farklı olduğu için iki ayrı olay olarak görünebilir. Embedding-tabanlı clustering bunları çoğu zaman aynı hikayeye toplar ama %100 garanti değil.
  • Editorial katman yok: Şu an tüm içerik AI üretimidir. Kriz dosyaları (Faz 3) için insan-onaylı içerik eklenecek.
  • Coğrafi kapsam: Türkiye/MENA /Karadeniz havzası ilk öncelik. Latin Amerika, Sahra Altı Afrika ve Pasifik kaynak çeşitliliği şu an daha sınırlı.

Akademik Kullanım

Public read API /api/v1/* ücretsiz erişim sağlar (60 req/dakika IP başına). Veri ihracı (CSV/JSON), atıf metni ve metodoloji referansı için bizimle iletişime geçin.

Bu döküman canlıdır ve algoritma değişiklikleriyle birlikte güncellenir. Son güncelleme: 2026-05-23. Versiyon geçmişi: GitHub repo'sundan izlenebilir.