🎤

Запись Zoom/Meet → второй мозг

Авто-запись звонков с системного звука и мика. Локальный Whisper транскрибит и кладёт в вики.

Обновлено 30 мая 2026 г.продуктивностьaudio

Что это

rec-voice - Python-демон, который ловит начало Zoom/Google Meet (по системному звуку), пишет двухканальную запись (мик + loopback), останавливается когда звонок закончился. Дальше локальный faster-whisper транскрибирует, и текст идёт в raw/calls/ твоего второго мозга.

Не SaaS, не Otter.ai - всё локально. Записи и расшифровки никуда не уходят.

Кому полезно: предпринимателям с потоком звонков. Я ставлю это себе и никогда больше не теряю детали разговоров.

Что внутри

Авто-детект Zoom/Meet/Discord по аудио-активности
Двухканальная запись: мик (твой голос) + loopback (собеседник)
faster-whisper локально - русский + английский, GPU-ускорение
Авто-ingest в `my-mind/raw/calls/` - готовый markdown с timeline
Авто-старт при загрузке Windows (есть скрипт)
Settings через config.json - порог тишины, языки, пути

Что понадобится

Windows 10 или 11
Python 3.10 или новее (python.org)
~3 ГБ места под модель Whisper (скачается при первом запуске)
8 ГБ RAM. Опционально GPU NVIDIA - тогда транскрибация в разы быстрее
5 минут на установку, ещё 5 минут на настройку аудиоустройств

Установка

Полный гайд внутри архива в README.md. Кратко:

1. Установить Python

С python.org. Во время установки обязательно галочка «Add Python to PATH».

Проверка в PowerShell:

python --version       # должно показать 3.10 или новее
pythonw --version      # это же, но «windowless»-вариант

2. Распаковать архив

Распакуй rec-voice.zip куда-нибудь, например C:\Tools\rec-voice\. Дальше все команды выполняй из этой папки.

3. Поставить зависимости

cd C:\Tools\rec-voice
python -m pip install -r requirements.txt

Поставит: faster-whisper, sounddevice, soundfile, scipy, psutil, pywin32, pystray, Pillow, winotify. Тянет ~500 МБ.

4. Создать config.json

copy config.example.json config.json

Открой config.json в любом редакторе и поменяй как минимум одно поле:

"transcripts_dir": "C:\\Users\\YOU\\Documents\\transcripts"

Это папка куда будут падать .md-расшифровки. Может быть любой - например папка твоего Obsidian-волта или просто «Документы\Звонки». Если оставишь "CHANGE_ME" - .md будут падать в подпапку transcripts_pending/ рядом со скриптом.

Остальные поля имеют разумные дефолты. Важное:

mic_device_name / loopback_device_name - оставь null, при необходимости заполним позже
language: "ru" - язык распознавания. Поменяй на "en" для английского
sys_track_gain: 0.5 - громкость собеседника относительно твоего голоса. 0.5 = собеседник на 6 дБ тише

5. Первый запуск

python main.py

При первом запуске скачает модель Whisper (~1.5 ГБ) в ~/.whisper-stt/models. Подожди пока в логе появится Model loaded и Boot complete. Тогда увидишь серый кружок в трее.

Логи: rec-voice.log в папке проекта. Если что-то идёт не так - первым делом смотри туда.

6. Проверить что записывает

Открой тестовый Google Meet или Zoom Meeting. Через ~6 секунд кружок в трее должен покраснеть и вылететь тост «Запись началась». Поговори в микрофон 1-2 минуты. Заверши встречу. Через ~15 секунд тост «Запись завершена», кружок голубеет (транскрибация), через ещё 30-60 секунд тост «Расшифровка готова» и .md в твоей transcripts_dir.

Если кружок не покраснел - см. Траблшутинг детектора в README.md.

7. Настроить аудиоустройства (если запись пустая)

Запусти диагностику:

python diag_loopback.py
python diag_mic.py

README объясняет какие устройства выбрать на разных конфигурациях (Realtek, Audient, Focusrite, обычная карта).

Автостарт при логине Windows

Когда всё работает:

powershell -ExecutionPolicy Bypass -File install_autostart.ps1

Бот будет стартовать сам при входе в систему через pythonw.exe (без чёрного окна).