← Blog

Selamat Datang ke Suikou AI — penaural global yang kuat dalam bahasa Jepun

Mengapa kami membina Suikou AI, bagaimana saluran penaural tiga laluan + pengesan Qwen-72B berfungsi, dan di mana morfologi bahasa Jepun / Korea memberikan kami kelebihan daya saing.

·1 min read·Ryota Nishiyama

Ini ialah siaran pertama di blog Suikou AI. Ia wujud untuk mengesahkan bahawa saluran kandungan MDX dirender dari awal hingga akhir — penghuraian frontmatter, jadual kandungan, anggaran masa membaca, dan Article JSON-LD semuanya dijalankan dari fail tunggal ini.

Mengapa Suikou AI

Kebanyakan penaural AI dibina untuk bahasa Inggeris. Apabila anda menampal draf akademik bahasa Jepun ke dalamnya, anda mendapat bahasa Jepun berbentuk Inggeris: hujung ayat monoton, penggantian は / が yang rosak, nisbah kanji yang jelas datang daripada mesin. Kami membina Suikou AI kerana morfologi bahasa Jepun memberikan penaural tugas yang terus dibuat salah oleh LLM yang dilatih pada korpus majoriti bahasa Inggeris — dan kerana melakukan tugas tersebut dengan baik dalam bahasa Jepun adalah tugas yang sama dalam bahasa Korea dan Cina Tradisional, di mana jurang yang sama wujud.

Bagaimana saluran berfungsi

  1. Tiga penulisan semula selari pada suhu 0.6 / 0.8 / 1.0 melalui DeepSeek-Chat.
  2. Penilaian kebarangkalian AI setiap calon dengan Qwen-72B (melalui OpenRouter) di bawah rubrik yang sedar morfologi bahasa Jepun.
  3. Calon skor-AI-terendah menang. Pengguna Pro boleh ikut serta dalam penapisan akademik laluan kedua melalui claude-3.5-haiku yang memelihara penanda petikan bergaya [CITE:1].

Apa yang seterusnya

Blog ini akan mendokumenkan pertukaran kejuruteraan (mengapa DeepSeek bukan GPT-4, mengapa Qwen-72B untuk pengesan, cara mengesan hanyutan petikan dalam laluan penapisan) dan pertukaran operasi (pembangunan seorang orang, entiti HK tersembunyi, mengapa kami belum melakukan pelan pasukan). Jika anda mendapati Suikou AI berguna, perkara terbaik yang boleh anda lakukan ialah memberitahu satu pelajar pasca siswazah yang lain.

— Ryota