C# Job System과 멀티스레딩을 활용한 대규모 물리 연산 병렬 처리 최적화

메인 스레드에 갇혀 있던 병목 현상의 한계를 시원하게 돌파하고, 멀티코어 프로세서의 잠재 연산 능력을 100% 한계치까지 활용하기 위한 C# Job System의 심화 활용법과 데이터 동기화 기법을 완벽 해부합니다.

Fig. Technical Visualization Reference

서론: 싱글 스레드 게임 루프의 근본적 한계와 병렬 처리 패러다임의 필요성

유니티(Unity) 엔진의 게임 구조 근간을 이루는 MonoBehaviour의 이벤트 라이프사이클 루프(Update, FixedUpdate, LateUpdate 등)는 엔진 내부적으로 철저하게 단일 스레드(Main Thread) 환경에서만 순차적으로 동작하도록 설계되어 있습니다. 이는 물리 상태, 렌더링 상태, 오디오 상태 등 수많은 서브시스템 간의 복잡한 런타임 게임 상태의 일관성을 강력하게 유지하고, 프로그래머들의 악몽인 메모리 충돌과 예측 불가능한 레이스 컨디션(Race Condition) 오류를 엔진 차원에서 원천 차단하여, 비전공 초보자도 쉽게 안전한 게임을 만들 수 있게 해주는 훌륭한 초기 아키텍처적 결단이었습니다. 그러나 모바일 스마트폰 기기조차 8코어(Octa-Core) 이상의 고성능 프로세서를 탑재하여 출하되는 현대 하드웨어 환경에서, 오직 1개의 메인 코어만을 연산으로 혹사시키며 나머지 7개의 코어를 멍하니 놀리고 있는 구조는 명백하고도 뼈아픈 컴퓨팅 자원의 낭비입니다. 복잡한 타일맵 A* AI 길찾기(Pathfinding), 수만 마리 저글링 유닛 떼의 상호 충돌 회피(Boids) 알고리즘, 마인크래프트와 같은 거대한 절차적 복셀 맵 생성 로직 등 막대한 연산량을 요구하는 수학적 작업들을 비좁은 메인 스레드 하나에서 순차적으로 꾸역꾸역 처리하게 되면, 결국 1프레임 할당 시간인 16밀리초(ms)를 아득히 초과하게 되고 이는 필연적으로 뚝뚝 끊기는 프레임 드랍(Spike)으로 직결됩니다. 기존 C# 문법의 System.Threading 패키지를 이용하여 개발자가 임의로 커스텀 스레드를 생성하여 작업을 던질 수도 있지만, 유니티의 핵심 API인 Transform 컴포넌트나 GameObject 뼈대 자체는 스레드 안전성(Thread-Safe)을 보장하지 않도록 짜여 있어 외부 스레드에서 함부로 접근하여 값을 수정하는 순간 즉시 엔진 크래시 에러 로그를 뿜어내며 게임이 터져버립니다. 이러한 접근 불가의 난관을 뚫고 안전하고 효율적으로 멀티코어 병렬 연산의 세계로 안내하기 위해 도입된 혁신적인 브릿지 기술이 바로 Unity C# Job System 프레임워크입니다.

C# Job System의 아키텍처와 완벽한 스레드 안전성(Safety System) 통제

C# Job System은 유니티 엔진 내부에서 미리 띄워놓고 대기 중인 네이티브 C++ 기반 워커 스레드 풀(Worker Thread Pool)과 개발자가 작성하는 고수준 C# 코드를 런타임에 안전하게 연결해주는 강력한 미들웨어 다리 역할을 수행합니다. 작동 방식은 간단명료합니다. 개발자는 분산시켜 수행해야 할 무거운 수학적 연산들의 묶음을 아주 작은 단위의 'Job' 구조체(Struct) 형식으로 정의하고, 이 구조체를 시스템에 실행 예약(Schedule) 제출합니다. 그러면 엔진의 중앙 스케줄러가 현재 연산을 쉬며 유휴 상태에 놓인 여러 워커 스레드들에게 수천 개의 Job 덩어리를 공평하게 분배하여 동시다발적으로 병렬 실행시킵니다. 이 Job System이 업계에서 찬사를 받는 가장 놀라운 핵심적인 점은, C++ 시절 멀티스레드 프로그래밍의 가장 큰 골칫거리였던 메모리 접근 충돌 현상과 교착 상태(Deadlock)를 방지하기 위해 엔진 코어에 내장된 집요하고 강력한 '안전 시스템(Safety System)'에 있습니다. 다수의 백그라운드 워커 스레드가 동일한 메모리 힙 주소에 동시에 접근하여 수정(Write)하려 할 때 발생하는 데이터 오염 현상을 막기 위해, Job 인터페이스 내부로 파라미터 전달되는 모든 구조체 데이터는 기본적으로 깊은 복사(Deep Copy)를 통해 완전히 복제되어 던져지거나, 덩치가 커서 복사가 불가능한 컬렉션의 경우 뒤에 설명할 Native 컬렉션을 통한 엄격한 읽기/쓰기 접근 권한(ReadOnly, ReadWrite) 통제를 받도록 강제됩니다. 특히 Unity 에디터 환경에서 개발 중일 때 만약 프로그래머가 실수로 두 개의 각기 다른 Job이 동시에 동일한 Native 메모리 주소에 대해 쓰기(Write) 권한을 점유하도록 예약하려 시도하면, 안전 시스템이 코드를 스캐닝하여 런타임 즉시 InvalidOperationException 에러를 빨간줄로 발생시켜 잠재적인 크래시 버그를 화면에 띄워 원천 차단해 버립니다. 이러한 보호구역 덕분에 개발자는 전통적인 C++ 방식의 지옥 같은 뮤텍스(Mutex), 세마포어(Semaphore) 락(Lock) 관리를 하느라 멀티스레드 디버깅의 수렁에 빠져 허우적거리지 않고, 오로지 순수한 연산 로직과 게임성 구현에만 쾌적하게 집중할 수 있는 환경을 선사받게 됩니다.

IJob과 IJobParallelFor 인터페이스의 본질적 차이와 전략적 스케줄링 배치

Job System 프레임워크 내에서 개발자가 목적에 맞게 사용할 수 있도록 제공하는 인터페이스 중 실무에서 가장 압도적인 빈도로 쓰이는 것은 IJob과 IJobParallelFor 두 가지입니다. 첫 번째로 IJob은 비교적 개념이 단순합니다. 메인 스레드의 부하를 덜기 위해 백그라운드 워커 스레드 단 '하나'에서 비동기적으로 혼자 묵묵히 실행되어야 하는 무거운 단일 연산 패키지(예: 대용량 서버 네트워크 패킷 JSON 통째로 파싱, 복잡한 해시맵 구성, 단일 거대 보스 몬스터의 거대한 인공지능 트리 순회 계산 등)에 적합한 도구입니다. 그러나 이 글의 핵심인 10,000마리의 몬스터 같은 대규모 데이터를 다루기 위해, 배열(Array) 형태로 나열된 수많은 데이터를 코딩 한 줄로 각기 다른 여러 개의 코어에 동시에 균등하게 나누어 찢어서 처리하고 싶다면 반드시 IJobParallelFor 구조체를 채택해야 합니다. 예를 들어 10,000발의 머신건 총알 궤적을 델타타임에 맞춰 계산한다고 가정해 봅시다. 로직을 담은 구조체를 IJobParallelFor로 구현하고 Schedule 메서드의 매개변수에 데이터 배열의 총 길이(10,000)를 전달하면, 유니티 내부 Job System 스케줄러는 이 10,000개의 거대한 덩어리 작업을 적절한 크기의 청크(Chunk)인 배치(Batch) 단위로 토막 내어 분할한 뒤, 현재 기기에서 사용 가능한 모든 유휴 물리적 코어(예: 8코어 스마트폰)에 사방으로 분산 배치시킵니다. 이렇게 되면 1번 코어는 0번~2500번 인덱스의 총알을, 2번 코어는 2501번~5000번 인덱스의 총알을 서로 독립적인 메모리 영역에서 완벽히 동시에 연산해 내어 처리 속도를 이론상 코어 수에 비례하여 8배 가까이 끌어올리는 극적인 최적화를 이뤄냅니다. 여기서 현업 시니어 개발자만이 아는 성능 극대화의 숨은 꿀팁은 Schedule 함수의 두 번째 파라미터인 '배치 크기(Batch Size)'를 프로파일링을 거쳐 절묘하게 조절하는 것입니다. 코어당 수행해야 하는 수학 연산량이 고작 덧셈 몇 번 정도로 매우 적은데, 무턱대고 모든 코어를 동원하겠답시고 배치 크기를 너무 작게 1로 잡아버리면, 코어들에게 1개의 작업을 나눠주고 작업 완료 보고를 수합하는 스케줄러의 컨텍스트 스위칭(Context Switching) 스레드 관리 오버헤드가 배보다 배꼽이 더 커져 오히려 메인 스레드에서 For문을 돌리는 것보다 성능이 저하되는 참사가 일어날 수 있습니다. 따라서 연산의 무게에 따라 최적의 청크 분할 사이즈(일반적으로 32~128 사이)를 세팅하며 프로파일러로 프레임 타임을 측정하는 섬세한 튜닝 과정이 반드시 필수적으로 수반되어야만 진정한 병렬 처리의 달인이 될 수 있습니다.

Native 컬렉션의 태동과 까다로운 수동 메모리 생명 주기(Lifecycle) 관리

격리된 백그라운드 워커 스레드와 메인 스레드 간에 수만 개의 대량 데이터를 주고받기 위한 통로를 개척할 때, 기존 C#에서 흔히 쓰던 일반적인 매니지드 배열(Array)이나 리스트(List) 클래스를 넘겨줄 수는 절대 없습니다. 이들은 C# 가비지 컬렉터(GC)의 변덕스러운 관리를 받는 메모리 구역에 존재하므로 언제 메모리 주소(Pointer)가 재배치되거나 삭제되어 쓰레기통으로 회수될지 스레드 입장에서 전혀 물리적 위치를 보장할 수 없기 때문입니다. 따라서 Job System 영역에 발을 들이려면, GC가 전혀 건드릴 수 없고 C++ 환경처럼 OS로부터 직접 언매니지드(Unmanaged) 메모리 영역을 수동으로 통째 할당받아 사용하는 NativeArray, NativeList, NativeHashMap 등의 강력한 Native 컬렉션 군단을 사용해야만 합니다. 이들은 힙 단편화와 GC 스파이크 오버헤드를 원천적으로 단 1%도 발생시키지 않으며 연속된 캐시 라인을 타기 때문에 믿을 수 없을 만큼 경이로운 메모리 접근 속도를 자랑합니다. 하지만 개발자에게 주어지는 엄청난 자유에는 언제나 무거운 책임이 따르는 법, 할당받아 사용이 끝난 무방비 상태의 Native 메모리 공간은 가비지 컬렉터가 치워주지 않으므로 개발자가 코드상에서 반드시 수동으로 Dispose() 메서드를 호출하여 OS에 해제 반납해 주어야 합니다. 만약 이를 실수로 누락하면 플레이 타임에 비례하여 램을 갉아먹는 무자비한 메모리 릭(Leak)의 주범이 됩니다. 유니티는 이러한 실수를 줄이기 위해 개발자가 메모리 할당(new)을 하는 시점에 데이터의 목적과 수명(Allocator 타입)을 강제로 지정하도록 문법적으로 구속합니다. 한 프레임 내에서 계산 중간 과정 용도로 잠깐 쓰이고 버려질 단기 데이터는 아주 빠른 속도를 자랑하는 Allocator.Temp 할당자를, 서너 프레임 정도의 수명을 걸쳐 비동기 작업 결과물을 전달받을 용도의 데이터는 Allocator.TempJob을, 씬이 로드될 때 생성되어 몬스터 배열처럼 게임 종료 시점까지 지속적으로 메모리에 상주하며 재사용될 거대한 영구 데이터 묶음은 Allocator.Persistent를 명시해서 사용해야 합니다. 만약 성격에 맞지 않는 알맞은 Allocator를 선택하지 않으면 에디터가 시작조차 거부하거나 성능 저하가 눈에 띄게 일어나므로, 다루고자 하는 수만 개의 데이터의 생존 사이클을 화이트보드에 명확히 기획하고 설계하는 것이 Job System 네이티브 최적화 여정의 기본이자 가장 중요한 첫걸음입니다.

잡 종속성(Job Dependencies) 사슬 관리 기법과 메인 스레드 병목 탈출

게임 내 복잡다단한 물리 시뮬레이션 환경에서는 단순한 병렬 연산이 끝이 아니라, 하나의 선행 작업(Job) 완료 결과물을 다음 후속 작업이 바통처럼 이어받아 순차적으로 파이프라인 처리를 해야 하는 얽히고설킨 경우가 빈번하게 발생합니다. 예를 들어 A라는 Job이 1만 마리 유닛의 현재 이동 벡터 위치를 수학적으로 계산해 내면, 반드시 그 직후에 B라는 Job이 새롭게 계산된 배열 결과값 좌표를 입력으로 넘겨받아 유닛 간의 충돌 검사 반경을 판단해야 한다면, 두 스레드의 실행 순서는 절대적으로 꼬임 없이 철저히 동기화되어 보장되어야만 합니다. C# Job System은 JobHandle 이라는 반환 구조체를 통해 이러한 험난한 종속성 체인(Dependency Chain)을 아주 우아하고 깔끔하게 엮어서 연결할 수 있게 해주는 마술을 부립니다. A-Job을 엔진 스케줄러에 Schedule() 할 때 반환값으로 튀어나온 JobHandle을 변수에 저장해 두었다가, 바로 아랫줄에서 B-Job을 Schedule() 할 때 매개변수 구멍에 슬쩍 넘겨주면 끝입니다. 그러면 똑똑한 유니티 엔진 스케줄러가 알아서 A 워커 스레드의 작업 100% 완료 시그널이 떨어질 때까지 내부적으로 B를 대기시켰다가, 안전해지는 순간 워커 스레드에 B를 즉각 투입하여 연쇄 반응을 일으킵니다. 그러나 역설적이게도 초보자들이 코드를 짤 때 바로 이 부분에서 가장 뼈아프고 치명적인 병목 현상을 제 손으로 초래하게 됩니다. 바로 메인 스레드의 Update() 문 한가운데서 무분별하고 성급하게 JobHandle.Complete() 메서드를 직접 호출하여 결과값을 구걸하며 대기하는 행위입니다. 이 Complete() 함수는 겉보기에 안전해 보이지만, 파라미터로 넘긴 백그라운드 예약 작업이 100% 완전히 끝날 때까지 유니티의 심장인 메인 스레드의 렌더링 루프를 강제로 옴짝달싹 못 하게 완전 정지(Blocking)시켜 버립니다. 만약 10,000번 반복되는 무거운 연산 루프를 던져놓고 불과 코드 두세 줄 뒤에서 급하다고 Complete()를 남발해 버리면, 메인 스레드는 백그라운드 연산을 멍하니 멈춰 서서 기다리게 되므로 기껏 워커 스레드로 연산 부하를 떠넘겨 분산시킨 멀티코어의 의미가 산산이 퇴색되고 심각한 화면 끊김 프레임 스파이크 현상이 여과 없이 튀어 오릅니다. 따라서 현업 마스터들의 이상적이고 교과서적인 병렬 처리 파이프라인 아키텍처 설계는, 프레임이 시작되는 초반부(예: Update 시작 첫 줄)에 당장 필요 없는 모든 거대한 잡들을 한꺼번에 엮어서 Schedule() 해 던져놓고 쿨하게 메인 스레드는 UI 갱신이나 가벼운 연산 등 자신의 본업을 수행하러 떠난 뒤, 더 이상 결괏값 적용을 프레임의 렌더링 갱신 전까지 미룰 수 없는 프레임 사이클의 가장 마지막 마지노선 시점(예: LateUpdate 문의 끝자락)에 이르러서야 비로소 Complete()를 호출하여 수거하는 방식으로, 메인 스레드 블로킹 타임을 0.1ms 단위로 극소화하는 완벽한 파이프라인 지연(Deferring) 설계에 도달해 있습니다.

Performance & FPS Simulator

Particle Count: 100

Current FPS

60.0

Implementation C# / Unity

using UnityEngine;
using Unity.Jobs;
using Unity.Collections;
using Unity.Burst;
using Unity.Mathematics;

// 메인 스레드에서 수만 마리의 Boid(군집) 시뮬레이션 데이터를 관장하는 매니저 컴포넌트
public class BoidSimulationManager : MonoBehaviour
{
    // 가비지 컬렉터(GC)의 간섭을 일절 받지 않는 C++ 스타일 언매니지드 Native 배열 선언
    private NativeArray positions;
    private NativeArray velocities;
    
    // 백그라운드 워커 스레드 작업의 진행 상태를 메인 스레드와 동기화하기 위한 신호등 객체
    private JobHandle simulationHandle;

    // 모바일 기기에서도 원활하게 돌아갈 극한의 목표 유닛 개수 세팅
    private readonly int count = 10000;

    void Start()
    {
        // Allocator.Persistent 모드로 할당하여 메모리를 OS로부터 크게 떼어옴.
        // 씬 라이프사이클 내내 지속적으로 파괴 없이 재사용할 튼튼한 메모리 공간을 초기에 단 한 번만 확보
        positions = new NativeArray(count, Allocator.Persistent);
        velocities = new NativeArray(count, Allocator.Persistent);

        // 초기 난수 좌표와 속도 벡터값 부여 (이 부분도 원한다면 초기화 전용 잡으로 넘길 수 있음)
        for (int i = 0; i < count; i++)
        {
            positions[i] = UnityEngine.Random.insideUnitSphere * 10f;
            velocities[i] = UnityEngine.Random.insideUnitSphere * 2f;
        }
    }

    void Update()
    {
        // 가장 강력한 방어 코드: 만약 모종의 이유로 이전 프레임의 거대한 연산이
        // 이번 프레임 Update가 시작될 때까지 16ms가 넘도록 아직도 끝나지 않았다면 여기서 확실히 메인 스레드 정지 후 대기.
        // (에디터 크래시나 메모리 오염 덮어쓰기를 완벽하게 보장하는 안전장치)
        simulationHandle.Complete();

        // 워커 스레드로 날려보낼 IJobParallelFor 구조체에 들어갈 입력 파라미터 세팅
        // 클래스가 아닌 '구조체(Struct)' 이므로 값 복사 형태로 힙 할당(new) 가비지 없이 깔끔하게 스택을 통해 전달됨
        var boidJob = new CalculateBoidMovementJob
        {
            Positions = positions,
            Velocities = velocities,
            DeltaTime = Time.deltaTime,
            Speed = 5.0f
        };

        // 유니티 백그라운드 워커 스레드 풀에 1만 개의 배열 병렬 작업을 스케줄링 예약.
        // 배치 사이즈(청크 분할 단위)는 프로파일링 테스트 결과 최적인 64로 세팅하여 코어별 컨텍스트 오버헤드 최소화.
        // ★중요★: Schedule() 메서드는 호출 즉시 비동기로 백그라운드에 작업을 던질 뿐, 메인 스레드는 블로킹되지 않고 
        // 다음 라인으로 단 0.01ms 만에 번개처럼 통과하여 넘어감.
        simulationHandle = boidJob.Schedule(count, 64);
        
        // TODO: 여기서 메인 스레드는 물리 연산 결과를 기다릴 필요 없이, 입력 처리나 UI 렌더링 등 본인만의 가벼운 작업을 독립적으로 처리하며 시간을 알뜰하게 씀
    }

    void LateUpdate()
    {
        // 화면에 오브젝트들을 렌더링하기 위해 트랜스폼 좌표 동기화 등의 결과값이 '반드시' 필요한 최종 마지노선 시점에 다다름.
        // 어쩔 수 없이 Complete()를 호출하여 대기하지만, Update문에서 스케줄링한 뒤 이 시점에 도달할 때까지
        // 이미 워커 스레드의 코어들이 연산을 거의 99% 끝내놓았을 확률이 매우 높으므로, 실제 메인 스레드가 블로킹되는 체감 대기 시간은 기적적으로 0ms에 수렴함.
        simulationHandle.Complete();
        
        // 연산이 확정된 NativeArray의 Positions 데이터를 실제 MonoBehaviour GameObject들의 Transform 좌표에 반영하거나
        // Graphics.DrawMeshInstanced 명령을 호출하여 화면에 렌더링하는 로직이 여기에 위치함
    }

    void OnDestroy()
    {
        // 컴포넌트가 파괴되거나 앱이 종료될 때 메모리 릭(Leak)을 방지하기 위한 영구 Native 컬렉션들의 강제 해제 수순
        // 메모리를 해제하기 전 혹시나 워커 스레드가 이 주소의 메모리를 뒤늦게 조작하는 끔찍한 사태를 막기 위해 반드시 최후의 동기화 Complete()를 호출하여 멈춤
        simulationHandle.Complete();
        
        // 안전하게 OS로 메모리 반환
        if (positions.IsCreated) positions.Dispose();
        if (velocities.IsCreated) velocities.Dispose();
    }
}

// Burst 컴파일러 어트리뷰트를 구조체 상단에 부착하여,
// 일반적인 C# IL 코드가 아닌 SIMD(벡터 연산 명령어) 가속을 팍팍 받는 초고속 C++ 수준의 네이티브 기계어로 컴파일을 엔진에 지시함
[BurstCompile]
public struct CalculateBoidMovementJob : IJobParallelFor
{
    // 워커 스레드 간 동일 메모리 동시 쓰기(데이터 레이스) 충돌 방지를 위한 접근 권한 제어
    // Positions는 이번 루프에서 읽기 전용으로만 쓸 것이므로 [ReadOnly]를 붙여 스케줄러가 최적화를 더 세게 할 수 있도록 힌트 제공
    [ReadOnly] public NativeArray Positions;
    // 속도는 변경된 값을 쓸 것이므로 기본 옵션인 ReadWrite 권한 유지
    public NativeArray Velocities;

    public float DeltaTime;
    public float Speed;

    // IJobParallelFor 인터페이스가 요구하는 유일한 구현 메서드. 시스템이 인덱스를 분할하여 알아서 병렬 호출해 줌.
    public void Execute(int index)
    {
        // 복잡한 거리 계산, 제곱근, 내적 등의 무거운 벡터 수학 연산 구역
        // Unity.Mathematics 라이브러리를 사용했으므로 이 구역의 코드는 Burst 컴파일러에 의해 모조리 SIMD 명령어(AVX2 등)로 묶여 4~8개씩 단일 클럭에 일괄 가속 연산됨
        float3 currentPos = Positions[index];
        float3 currentVel = Velocities[index];
        
        // 단순화된 임시 중력 및 속도 물리 연산 데모 시뮬레이션 코드
        // 실제로는 주변 유닛 반경 검색 알고리즘이나 해시맵 그리드 연산이 들어감
        currentVel = math.normalize(currentVel + math.float3(0, -0.98f, 0) * DeltaTime) * Speed;
        
        // 결과값을 배열에 덮어쓰기 완료
        Velocities[index] = currentVel;
    }
}

결론적으로 말해 C# Job System의 스케줄링 메커니즘과 Native 메모리의 언매니지드 세계를 자유자재로 다루는 능력은, 주니어 유니티 개발자가 단순 스크립터의 한계를 벗어나 하드웨어 아키텍처를 이해하는 중급 및 고급 엔진 프로그래머로 퀀텀 점프하기 위해 반드시 거쳐야 할 가장 확실하고 빛나는 이정표입니다. 처음에 C++ 포인터 개념과 메모리 생명 주기 관리가 익숙하지 않아 무수히 많은 에디터 크래시와 런타임 에러 화면을 맞닥뜨리며 좌절하게 되더라도, 결코 학습을 포기하지 마십시오. 수만 개의 거대한 좀비 객체와 폭발 파편들이 서로 얽히고설키며 복잡한 물리 상호작용 연산을 쏟아내는데도 불구하고, 스마트폰 모바일 화면에서 아무런 프레임 드랍 버벅임 현상 하나 없이 부드러운 60프레임으로 미끄러지듯 렌더링 돌아가는 기적의 씬 뷰 화면을 스스로의 코드로 목도하게 되는 찬란한 순간, 왜 우리가 안락하고 편안하며 안전하지만 비좁았던 메인 스레드(Main Thread)의 따뜻한 둥지를 뒤로하고 험난한 멀티코어 워커 스레드의 거친 바다로 기꺼이 맨몸으로 뛰어들어 사투를 벌여야만 했는지, 그 눈물 나는 이유와 성능적 쾌감을 뼈저리게 느끼며 한 단계 진화하게 될 것입니다.

URP 렌더링 파이프라인 심층 분석 및 SRP 배처(Batcher)를 이용한 드로우 콜 최적화

제로 가비지(Zero Garbage) 달성을 위한 커스텀 오브젝트 풀링과 메모리 단편화 방지 기법