Bu, Suikou AI blogundaki ilk yazıdır. MDX içerik boru hattının uçtan uca oluşturulduğunu doğrulamak için var — ön madde ayrıştırma, içindekiler tablosu, okuma süresi tahmini ve Article JSON-LD hepsi bu tek dosyadan çalışır.
Suikou AI Neden Var
Çoğu AI doğallaştırıcısı İngilizce için tasarlandı. Japonca akademik bir taslağı bunlardan birine yapıştırdığınızda İngilizce şekilli Japonca geri alırsınız: monoton cümle sonları, bozuk は / が dönüşümü, makineye çığlık atan kanji oranı. Suikou AI'yı geliştirdik çünkü Japoncanın morfolojisi, doğallaştırıcılara İngilizce ağırlıklı korpuslar üzerinde eğitilmiş LLM'lerin sürekli hatalı yaptığı bir iş veriyor — ve bu işi Japoncada iyi yapmak, aynı boşluğun var olduğu Koreceyle ve Geleneksel Çinceyle aynı iştir.
Boru Hattı Nasıl Çalışıyor
- Üç paralel yeniden yazma, DeepSeek-Chat aracılığıyla 0.6 / 0.8 / 1.0 sıcaklıklarında.
- Her adayın Japonca morfoloji farkındalıklı bir rubrik altında Qwen-72B ile AI olasılığı puanlaması (OpenRouter aracılığıyla).
- En düşük AI puanlı aday kazanır. Pro kullanıcılar,
[CITE:1]stili kaynak işaretlerini koruyan claude-3.5-haiku aracılığıyla ikinci geçiş akademik düzeltmeye katılabilir.
Sırada Ne Var
Bu blog, mühendislik ödünleşimlerini (neden DeepSeek, GPT-4 değil; dedektör için neden Qwen-72B; düzeltme geçişinde kaynak kaymasını nasıl tespit ederiz) ve operasyonel ödünleşimleri (tek kişilik geliştirici, gizli HK kuruluşu, neden henüz ekip planı yapmıyoruz) belgeleyecek. Suikou AI'yı yararlı bulduysanız yapabileceğiniz en iyi şey, onu başka bir lisansüstü öğrencisine anlatmaktır.
— Ryota
