Feat/feasibility check#291
Conversation
- proposal: introduce 3-phase framing (resource/data/config), add resource-phase refinements (warm cache, n_jobs × VRAM, refit_after, Hub reachability, CatBoost GPU sanity), data-quality phase (token truncation, split readiness, partial descriptions, embedder dim), config sanity phase, updated example output, CLI surface, out-of- scope deferrals - _advisor package: hardware detection (CUDA/MPS/CPU with broken-CUDA fallback), HF Hub metadata + warm-cache probe + offline heuristics, three-phase run_preflight returning structured PreflightReport, text + JSON renderers - autointent-advisor CLI: inspect <preset|config> and recommend subcommands; placeholder dataset stats when no --dataset given - 88 offline tests covering hardware fallbacks, every bundled preset, severity routing, report serialization, name-pattern heuristics, AMP invariant, dump_modules / refit_after, CLI flows Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
| SearchSpacePreset = Literal[ | ||
| "classic-heavy", | ||
| "classic-light", | ||
| "classic-medium", | ||
| "nn-heavy", | ||
| "nn-medium", | ||
| "transformers-heavy", | ||
| "transformers-light", | ||
| "transformers-no-hpo", | ||
| "nn-heavy", | ||
| "zero-shot-llm", | ||
| "nn-medium", | ||
| "classic-heavy", | ||
| "transformers-no-hpo", | ||
| "classic-medium", | ||
| "zero-shot-encoders", | ||
| "classic-light", | ||
| ] | ||
| """Some presets that our library supports.""" | ||
| """Bundled search-space presets, listed in descending quality order. | ||
|
|
||
| The order is consumed by ``autointent._advisor.recommend`` to pick the | ||
| highest-quality feasible preset (lower index = higher quality).""" |
There was a problem hiding this comment.
это к сожалению неправда - выстроить пресеты в какой-то один порядок нельзя потому что под разные задачи нужны разные пресеты
например transformers-heavy будет ужасно работать если выборка маленькая
There was a problem hiding this comment.
Тут скорее по времени выполнения
There was a problem hiding this comment.
тогда надо докстринг изменить, сейчас он вводит в заблуждение читателей документации
| if mixed_precision: | ||
| bytes_per_sample //= 2 |
There was a problem hiding this comment.
тут не совсем такая формула, там же куча мастер копий еще - мне кажется стоит уточнить этот момент
такое сокращение может быть, но это слишком оптимистичная оценка - а мы хотим оценить затраты сверху а не снизу
There was a problem hiding this comment.
немного странно что цпу никак не влияет на оценки времени
voorhs
left a comment
There was a problem hiding this comment.
в целом по методике и алгоритам ок за исключением мелочей которые прокомментил (посмотрел не прямо все но пока это стоит исправить)
есть два пожелания:
- наверное стоит добавить какой-то обоснованности всем используемым формулам (ссылки на внешние ресурсы, бенчмарки, статьи в которых исследуется такое) - вообще с этого стоило начать выполнение этой задачи)
- очень неудобно ревьюить когда в одном бульоне приватные утилиты и публичные функции, мне кажется стоит руками самому как-то разнести все это на подфайлы и подпапки, потому что иишке это ок, а человечески очень тяжело когда файл на 800 строк и в нем центральный публичный метод с главным алгоритмом спрятан где-то посередине или в конце
No description provided.