모든 AI 제품이 과대광고된 것은 아닙니다. 이메일 작성부터 사진 편집, AI 에이전트 실행까지 정말 유용한 제품도 있습니다.
저는 다양한 AI 도구를 끊임없이 테스트하고, 새로운 도구에 가입하고, 베타 소프트웨어를 시도하고, 기존 경쟁 도구와 비교하여 성능을 평가해 왔습니다.
AI 세계를 탐험하는 동안 독자들에게 진정한 도움이 되는 유용한 AI 도구를 제공하는 것은 우리의 책임이며, 우리는 이를 위해 노력해 왔습니다. 최근 발간한 AI 에이전트 가이드는 이러한 노력의 일환으로, 일반 사용자에게 도움이 될 수 있는 8가지 유용한 AI 에이전트를 소개합니다.
위스퍼 는 오디오를 텍스트로 변환할 수 있는 도구 중 하나입니다. 캡션 과 같은 유용한 기능도 제공하며, 자막 생성까지 가능합니다. 대부분의 플랫폼에서 자막을 제공하고 있지만, 자막이 없는 프로그램이 여전히 많아 이해하기 매우 어렵고 시청하지 않는 경우가 많습니다. 또한, 더빙 덕분에 대부분의 스튜디오는 제한된 언어 옵션으로 프로그램을 출시합니다.
Whisper AI를 사용하여 모든 비디오에 자막과 캡션을 생성하는 방법
이를 위해 저는 OpenAI에서 제공하는 무료 오디오 텍스트 변환 도구인 Whisper를 사용하고 있습니다. Whisper는 Mac과 Windows 모두에서 사용 가능합니다. 여러 언어를 지원하고 다른 언어로 번역할 수도 있습니다. 텍스트를 변환하고, 오디오에서 텍스트를 생성하고, 다른 언어로 변환할 수 있습니다. 가장 중요한 것은 모든 언어의 자막과 캡션을 생성하고 영어로 번역할 수 있다는 것입니다.
Mac, Windows 및 Linux에 Whisper를 설치하고 사용하기 위한 전제 조건
Whisper AI는 클라우드와 Mac에서 로컬로 실행할 수 있습니다. 무료 옵션에 대해 논의하고 있으므로, 기기에서 로컬로 실행하는 것이 유일하게 무료로 이용할 수 있는 옵션입니다. 하지만 그 전에, 각 플랫폼에서 기기에서 로컬로 실행하기 위한 전제 조건을 알려드리겠습니다.
윈도우
- 파이썬 3.8 이상
- 파이토치 1.10.1+
- ffmpeg
스코틀랜드 사람
- 파이썬 3.8 이상
- 파이토치 1.10.1+
- ffmpeg 리눅스
- 파이썬 3.8 이상
- 파이토치 1.10.1+
- ffmpeg
장치에 Whisper AI를 로컬로 설치하는 방법
Whisper 설치는 간단하며, 기기에 따라 세 단계만 거치면 됩니다. Windows와 macOS 모두에 대한 방법을 안내해 드렸습니다. 아래 단계에 따라 기기에 Whisper를 로컬로 설치하시면 문제없이 사용하실 수 있습니다. 준비가 되셨다면 시작해 볼까요?
1단계: 장치에 Python 설치
기기에 이미 Python이 설치되어 있다면 이 단계를 건너뛸 수 있습니다. 설치되어 있지 않다면 https://www.python.org/ 에 방문하여 기기에 설치하세요.

설치가 완료되면 다음 명령을 사용하여 장치에 설치되었는지 확인하세요.
명령 프롬프트(Windows) 또는 터미널(Mac/Linux)을 열고 다음 명령을 입력하세요: python version.
Python 버전이 표시되면(예: Python 3.12.0) 기기에 성공적으로 설치되었다는 의미입니다. 표시되지 않으면 설치 과정을 다시 따라가세요.
이전 버전의 Python을 사용하는 경우 Windows, Mac, Linux에서 다음 명령을 사용하여 업데이트할 수 있습니다.
- 윈도우: python -m pip install –upgrade pip
- MacOS : python3 -m pip install –upgrade pip
- 리눅스: sudo apt install python3.12
2단계: 이제 Whisper를 설치하세요
다음으로, 기기에 Whisper를 설치하세요. 기기에서 터미널을 열고 다음 명령어를 사용하세요.
- Windows: pip install -u openai-whisper
- MacOS: pip install -u openai-whisper. 오류가 발생하면 다음 명령을 사용하세요: python3 -m pip install –user -U openai-whisper
- 리눅스: pip install -u openai-whisper

모든 파일이 성공적으로 다운로드될 때까지 기다리세요. 완료되면 '다운로드가 완료되었습니다'와 비슷한 메시지가 표시됩니다.
이 명령을 사용하면 장치에 올바르게 설치되었는지 확인할 수 있습니다.
명령어: whisper –help
3단계: 다음으로 FFmpeg 소프트웨어를 설치합니다.
다음으로, 장치의 오디오 파일을 처리하기 위해 ffmpeg(오디오에 필요)를 설치합니다.
Mac의 경우:
다음 간단한 명령을 사용하여 Homebrew를 사용하여 Mac에 설치할 수 있습니다: brew install ffmpeg
Mac에 Homebrew가 없는 경우:
1단계: Mac에서 터미널을 엽니다.
2단계: 다음 명령을 붙여넣고 Enter를 누릅니다. /bin/bash -c “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)”
3단계: 비밀번호를 입력하고 모든 파일이 다운로드될 때까지 기다리세요.

4단계: 다음 명령을 사용하여 Brew가 기기에 올바르게 설치되었는지 확인하세요. 다음 명령을 사용할 수 있습니다: brew –version
ffmpeg 소프트웨어 설치
1단계: 터미널을 열고 다음 명령을 사용하세요: brew install ffmpeg

2단계: 필요한 모든 파일이 다운로드될 때까지 기다리세요.
3단계: 이 명령을 사용하여 장치에 성공적으로 설치되었는지 확인하세요: ffmpeg -version

Windows의 경우:
1단계: https://ffmpeg.org/download.html 로 이동하여 Windows 파일을 다운로드합니다.
2단계: 다른 소프트웨어와 마찬가지로 압축을 풀고 장치에 설치합니다.
3단계: 다음으로, 기기에 모든 것이 제대로 설치되었는지 확인하세요. 기기에서 터미널을 열고 'whisper help' 명령어를 입력하세요. 옵션이 표시되면 앱이 기기에 제대로 설치된 것입니다.
비디오 자막을 생성하는 방법
1단계: 기기에서 터미널을 열고 비디오 파일이 있는 폴더로 이동합니다. 이 경우, 제 비디오 파일은 바탕 화면에 있습니다. 다음 명령을 사용하여 비디오 파일 폴더로 이동할 수 있습니다.

- Windows: cd Desktop
- MacOS: cd ~/Desktop
2단계: 오디오 및 비디오 파일을 텍스트로 변환합니다. Whisper가 지원하는 파일 형식 목록은 다음과 같습니다.
| 지원되는 비디오 형식 | 지원되는 오디오 형식 |
| .mp4 | .mp3 |
| .mkv | .wav |
| .mov | .플랙 |
| .웹엠 | .m4a |
| .avi | .aac |
| .mpg /.mpeg | .ogg |
| .flv | .작 |
| .wmv | .aiff /.aif |
| .3gp | .amr |
| .wma |
3단계: 이제 다음 명령을 사용하여 비디오 파일을 선택하여 전사합니다. whisper(여기에 비디오 또는 오디오 파일 이름을 추가합니다) –model turbo –task transcribe
예: whisper video.mp4 –model turbo –task transcribe
3단계: 선택한 모델에 따라 새 모델이 다운로드될 수 있습니다. 다운로드가 완료될 때까지 기다리세요. 선택할 수 있는 다양한 Whisper 모델은 다음과 같습니다. 모델이 낮을수록 정확도가 떨어집니다.
| 모델명 | 매개변수 | 필요한 VRAM |
| 매우 작은 | 39개월 | 1GB |
| 베이스 | 74M | 1GB |
| 작은 | 244M | 2GB |
| 중간 | 769M | 5GB |
| 크기가 큰 | 1.55B | 10GB |
| 터보 | 809M | 6GB |
하지만 기기 성능이 좋지 않다면 작은 모델이나 기본 모델을 사용하는 것이 좋습니다. 큰 모델을 실행하면 시스템 리소스가 모두 소모될 수 있기 때문입니다. 대용량 미디어 파일이 있고 높은 정확도를 원한다면 Google Colab에서 Whisper를 실행할 수 있습니다. 자세한 방법은 여기 비디오 튜토리얼을 참조하세요.

4단계: 이제 자막이 생성됩니다. 이전에 지정한 비디오 폴더에서 다음 파일을 찾을 수 있습니다.
- video. txt plain text transcript
- video. vtt web subtitle format
- video. srt common subtitle format (for YouTube, VLC, etc. )

5단계: 파일을 열어 자막을 확인하세요. 이제 동영상이 있는 폴더로 이동하여 video.srt 파일을 여세요.

6단계(선택 사항): 비디오가 영어가 아닌 경우 다음 명령을 사용하여 영어로 번역할 수 있습니다.
명령: whisper (your video or audio file name) –model medium –language (enter your language here) –task translate
예: whisper video.mp4 –model medium –language Japanese –task translate

7단계: 이제 비디오 파일이 있는 위치로 돌아가세요. 그러면 해당 비디오의 영어 자막이 포함된 video.SRT 파일을 볼 수 있습니다.

비디오에 자막을 사용하는 방법
모든 타사 미디어 플레이어 로 자막을 가져와서 자막과 함께 비디오를 재생할 수 있습니다. VLC는 Windows와 macOS 모두에서 사용 가능한 최고의 타사 미디어 플레이어입니다. Whisper를 사용하여 생성한 자막과 함께 영화를 시청하는 방법을 소개합니다.
VLC 미디어 플레이어 다운로드(무료)
- 윈도우용
- macOS의 경우
1단계: 다운로드가 완료되면 VLC 미디어 플레이어를 기기에 설치합니다.

2단계: Windows에서 VLC 플레이어를 열고 재생 목록 탭으로 이동한 다음 미디어 열기를 클릭합니다.

3단계: 여기에서 찾아보기를 탭하고 비디오 파일을 선택한 다음 자막 파일 추가를 활성화하고 Whisper AI를 사용하여 생성한 자막 파일을 선택한 다음 열기를 클릭합니다.

4단계: 영상의 자막이 생성됩니다.
마지막 생각
수년간 이러한 제약 때문에 답답했습니다. 그런데 VLC에서 실시간으로 작동하는 AI 생성 자막을 발표했지만, 일반 사용자는 아직 이용할 수 없습니다. 더 걱정스러운 건, 트위터에 올린 마지막 게시물이었는데, 위스퍼를 알아내기 전까지는 희망을 잃고 있다는 겁니다.
기기의 리소스에 따라 장편 영화를 포함한 모든 비디오의 자막을 생성하는 방법입니다. 기기의 성능이 좋지 않다면 Google Colab에서 Whisper AI를 실행할 수 있습니다. 자막을 생성하는 것뿐만 아니라 아래 영상처럼 다른 언어로 번역할 수도 있습니다. 이 가이드가 도움이 되셨으면 좋겠습니다.
초보자도 쉽게 이해할 수 있도록 각 단계를 자세히 설명했습니다. 기기에서 Whisper AI를 로컬로 설정하거나 실행하는 데 문제가 있으면 아래에 댓글을 남겨주세요.
Whisper AI를 사용하여 자막 생성에 대한 FAQ
1. Whisper를 사용하면 내가 업로드한 YouTube 동영상에 자동으로 자막을 추가할 수 있나요?
아니요, 동영상이 기기에 로컬로 저장된 경우 자막을 생성한 후 YouTube에 업로드할 때 함께 업로드해야 합니다. 업로드하는 YouTube 동영상에 자막이 자동으로 추가되는 것은 아닙니다.
2. Whisper는 설치 후 오프라인에서도 작동하나요?
네, 필요한 모델을 다운로드하면 오프라인에서도 작동하므로 인터넷 연결이 필요 없습니다.
3. 구형 또는 저사양 기기에서 어떻게 하면 텍스트 변환 속도를 높일 수 있나요?
필사 속도를 높이려면 작은 모델을 사용해야 합니다. 또한, 큰 비디오 파일을 작은 파일로 압축하여 작업 속도를 높일 수도 있습니다. 파일을 압축하려면 터미널에서 다음 명령을 사용하세요. ffmpeg -i video.mp4 -q: a 0 -map a audio.mp3
4. Whisper는 말하는 사람을 감지하거나 대화를 자동으로 구분할 수 있나요?
아니요, 현재 Whisper는 화자를 감지하거나 대화를 자동으로 구분할 수 없습니다. Pyannote와 같은 별도의 도구를 사용하여 별도의 오디오 파일, Pyannote 오디오 또는 WhisperX를 얻어야 합니다.
5. Whisper에서 생성된 자막은 잡음이 많거나 악센트가 있는 음성에도 정확합니까?
네, 최고의 전사 모델 중 하나입니다. 정확도는 사용하는 모델에 따라 달라집니다. 일반적으로 모델이 클수록 정확도가 더 높지만, 실행하는 데 시간이 더 오래 걸리고 많은 리소스가 필요할 수 있습니다.
*참고한 원본 글: https://techpp.com/2025/10/31/use-whisper-ai-to-make-subtitles/

