buzz/tests/transcriber_benchmarks_test.py

import platform
from unittest.mock import Mock

import pytest

from buzz.model_loader import WhisperModelSize, ModelType, TranscriptionModel
from buzz.transcriber import (
    FileTranscriptionOptions,
    FileTranscriptionTask,
    Task,
    WhisperCppFileTranscriber,
    TranscriptionOptions,
    WhisperFileTranscriber,
    FileTranscriber,
)
from tests.model_loader import get_model_path


def get_task(model: TranscriptionModel):
    file_transcription_options = FileTranscriptionOptions(
        file_paths=["testdata/whisper-french.mp3"]
    )
    transcription_options = TranscriptionOptions(
        language="fr", task=Task.TRANSCRIBE, word_level_timings=False, model=model
    )
    model_path = get_model_path(transcription_options.model)
    return FileTranscriptionTask(
        file_path="testdata/audio-long.mp3",
        transcription_options=transcription_options,
        file_transcription_options=file_transcription_options,
        model_path=model_path,
    )


def transcribe(qtbot, transcriber: FileTranscriber):
    mock_completed = Mock()
    transcriber.completed.connect(mock_completed)
    with qtbot.waitSignal(transcriber.completed, timeout=10 * 60 * 1000):
        transcriber.run()

    segments = mock_completed.call_args[0][0]
    return segments


@pytest.mark.parametrize(
    "transcriber",
    [
        pytest.param(
            WhisperCppFileTranscriber(
                task=(
                    get_task(
                        TranscriptionModel(
                            model_type=ModelType.WHISPER_CPP,
                            whisper_model_size=WhisperModelSize.TINY,
                        )
                    )
                )
            ),
            id="Whisper.cpp - Tiny",
        ),
        pytest.param(
            WhisperFileTranscriber(
                task=(
                    get_task(
                        TranscriptionModel(
                            model_type=ModelType.WHISPER,
                            whisper_model_size=WhisperModelSize.TINY,
                        )
                    )
                )
            ),
            id="Whisper - Tiny",
        ),
        pytest.param(
            WhisperFileTranscriber(
                task=(
                    get_task(
                        TranscriptionModel(
                            model_type=ModelType.FASTER_WHISPER,
                            whisper_model_size=WhisperModelSize.TINY,
                        )
                    )
                )
            ),
            id="Faster Whisper - Tiny",
            marks=pytest.mark.skipif(
                platform.system() == "Darwin",
                reason="Error with libiomp5 already initialized on GH action runner: https://github.com/chidiwilliams/buzz/actions/runs/4657331262/jobs/8241832087",
            ),
        ),
    ],
)
def test_should_transcribe_and_benchmark(qtbot, benchmark, transcriber):
    segments = benchmark(transcribe, qtbot, transcriber)
    assert len(segments) > 0