Это первая публикация в блоге Suikou AI. Она создана для проверки того, что конвейер MDX-контента работает от начала до конца: парсинг фронтматтера, оглавление, оценка времени чтения и Article JSON-LD — всё это формируется из одного файла.
Почему Suikou AI
Большинство AI humanizer-инструментов создавались для английского. Когда вы вставляете японский академический
черновик в них, вы получаете японский, сформированный по шаблону английского: монотонные окончания предложений,
нарушенное чередование は / が, соотношение кандзи, кричащее о машинном происхождении. Мы создали
Suikou AI потому, что морфология японского ставит перед humanizer-инструментами задачу, с которой LLM,
обученные преимущественно на английских корпусах, постоянно справляются плохо, — а умение хорошо выполнять
эту работу на японском — это та же самая задача на корейском и традиционном китайском, где существует тот же разрыв.
Как работает конвейер
- Три параллельных переработки при температурах 0.6 / 0.8 / 1.0 через DeepSeek-Chat.
- Оценка вероятности AI для каждого кандидата с помощью Qwen-72B (через OpenRouter) по рубрике с учётом морфологии японского.
- Побеждает кандидат с наименьшей оценкой AI. Пользователи Pro могут включить
второй проход академической полировки через claude-3.5-haiku, сохраняющий
маркеры цитат в стиле
[CITE:1].
Что дальше
В этом блоге будут описываться инженерные компромиссы (почему DeepSeek, а не GPT-4, почему Qwen-72B для детектора, как обнаружить дрейф цитат при проходе полировки) и операционные компромиссы (разработка одним человеком, скрытое HK-юрлицо, почему мы пока не делаем командные тарифы). Если Suikou AI оказался вам полезен, лучшее, что вы можете сделать, — рассказать о нём ещё одному аспиранту.
— Ryota
