← Blog

Suikou AI'ya Hoş Geldiniz — Japonca güçlü küresel doğallaştırıcı

Suikou AI'yı neden geliştirdik, üç geçişli doğallaştırma + Qwen-72B dedektör boru hattı nasıl çalışıyor ve Japonca / Korece morfolojisi bize neden avantaj sağlıyor.

·1 min read·Ryota Nishiyama

Bu, Suikou AI blogundaki ilk yazıdır. MDX içerik boru hattının uçtan uca oluşturulduğunu doğrulamak için var — ön madde ayrıştırma, içindekiler tablosu, okuma süresi tahmini ve Article JSON-LD hepsi bu tek dosyadan çalışır.

Suikou AI Neden Var

Çoğu AI doğallaştırıcısı İngilizce için tasarlandı. Japonca akademik bir taslağı bunlardan birine yapıştırdığınızda İngilizce şekilli Japonca geri alırsınız: monoton cümle sonları, bozuk は / が dönüşümü, makineye çığlık atan kanji oranı. Suikou AI'yı geliştirdik çünkü Japoncanın morfolojisi, doğallaştırıcılara İngilizce ağırlıklı korpuslar üzerinde eğitilmiş LLM'lerin sürekli hatalı yaptığı bir iş veriyor — ve bu işi Japoncada iyi yapmak, aynı boşluğun var olduğu Koreceyle ve Geleneksel Çinceyle aynı iştir.

Boru Hattı Nasıl Çalışıyor

  1. Üç paralel yeniden yazma, DeepSeek-Chat aracılığıyla 0.6 / 0.8 / 1.0 sıcaklıklarında.
  2. Her adayın Japonca morfoloji farkındalıklı bir rubrik altında Qwen-72B ile AI olasılığı puanlaması (OpenRouter aracılığıyla).
  3. En düşük AI puanlı aday kazanır. Pro kullanıcılar, [CITE:1] stili kaynak işaretlerini koruyan claude-3.5-haiku aracılığıyla ikinci geçiş akademik düzeltmeye katılabilir.

Sırada Ne Var

Bu blog, mühendislik ödünleşimlerini (neden DeepSeek, GPT-4 değil; dedektör için neden Qwen-72B; düzeltme geçişinde kaynak kaymasını nasıl tespit ederiz) ve operasyonel ödünleşimleri (tek kişilik geliştirici, gizli HK kuruluşu, neden henüz ekip planı yapmıyoruz) belgeleyecek. Suikou AI'yı yararlı bulduysanız yapabileceğiniz en iyi şey, onu başka bir lisansüstü öğrencisine anlatmaktır.

— Ryota