Что это
raw/calls/ твоего второго мозга.
Не SaaS, не Otter.ai - всё локально. Записи и расшифровки никуда не уходят.
Кому полезно: предпринимателям с потоком звонков. Я ставлю это себе и никогда больше не теряю детали разговоров.
Что внутри
- Авто-детект Zoom/Meet/Discord по аудио-активности
- Двухканальная запись: мик (твой голос) + loopback (собеседник)
- faster-whisper локально - русский + английский, GPU-ускорение
- Авто-ingest в `my-mind/raw/calls/` - готовый markdown с timeline
- Авто-старт при загрузке Windows (есть скрипт)
- Settings через config.json - порог тишины, языки, пути
Что понадобится
- Windows 10 или 11
- Python 3.10 или новее (python.org)
- ~3 ГБ места под модель Whisper (скачается при первом запуске)
- 8 ГБ RAM. Опционально GPU NVIDIA - тогда транскрибация в разы быстрее
- 5 минут на установку, ещё 5 минут на настройку аудиоустройств
Установка
Полный гайд внутри архива в README.md. Кратко:
1. Установить Python
С python.org. Во время установки обязательно галочка «Add Python to PATH».
Проверка в PowerShell:python --version # должно показать 3.10 или новее
pythonw --version # это же, но «windowless»-вариант
2. Распаковать архив
Распакуй rec-voice.zip куда-нибудь, например C:\Tools\rec-voice\. Дальше все команды выполняй из этой папки.
3. Поставить зависимости
cd C:\Tools\rec-voice
python -m pip install -r requirements.txt
Поставит: faster-whisper, sounddevice, soundfile, scipy, psutil, pywin32, pystray, Pillow, winotify. Тянет ~500 МБ.
4. Создать config.json
copy config.example.json config.json
Открой config.json в любом редакторе и поменяй как минимум одно поле:
"transcripts_dir": "C:\\Users\\YOU\\Documents\\transcripts"
Это папка куда будут падать .md-расшифровки. Может быть любой - например папка твоего Obsidian-волта или просто «Документы\Звонки». Если оставишь "CHANGE_ME" - .md будут падать в подпапку transcripts_pending/ рядом со скриптом.
Остальные поля имеют разумные дефолты. Важное:
mic_device_name/loopback_device_name- оставьnull, при необходимости заполним позжеlanguage: "ru"- язык распознавания. Поменяй на"en"для английскогоsys_track_gain: 0.5- громкость собеседника относительно твоего голоса. 0.5 = собеседник на 6 дБ тише
5. Первый запуск
python main.py
При первом запуске скачает модель Whisper (~1.5 ГБ) в ~/.whisper-stt/models. Подожди пока в логе появится Model loaded и Boot complete. Тогда увидишь серый кружок в трее.
Логи: rec-voice.log в папке проекта. Если что-то идёт не так - первым делом смотри туда.
6. Проверить что записывает
Открой тестовый Google Meet или Zoom Meeting. Через ~6 секунд кружок в трее должен покраснеть и вылететь тост «Запись началась». Поговори в микрофон 1-2 минуты. Заверши встречу. Через ~15 секунд тост «Запись завершена», кружок голубеет (транскрибация), через ещё 30-60 секунд тост «Расшифровка готова» и .md в твоей transcripts_dir.
Если кружок не покраснел - см. Траблшутинг детектора в README.md.
7. Настроить аудиоустройства (если запись пустая)
Запусти диагностику:
python diag_loopback.py
python diag_mic.py
README объясняет какие устройства выбрать на разных конфигурациях (Realtek, Audient, Focusrite, обычная карта).
Автостарт при логине Windows
Когда всё работает:powershell -ExecutionPolicy Bypass -File install_autostart.ps1
Бот будет стартовать сам при входе в систему через pythonw.exe (без чёрного окна).