박종영
(Jong-young Park)
†iD
홍수민
(Sumin Hong)
1
황일서
(Il-Seo Hwang)
1
허재행
(Jae-Haeng Heo)
1
권경빈
(Kyung-Bin Kwon)
1
정호성
(Hosung Jung)
2
-
(RaonFriends Co., Ltd., Korea)
-
(Electrification System Research Department, Korea Railroad Research Institute, Korea)
Copyright © The Korean Institute of Electrical Engineers
Key words
Reinforcement Learning, Regenerative Braking Energy, Deep Q-Network, Energy Management System, Railway Air Quality
1. 서 론
미세먼지(PM10, PM2.5)는 세계보건기구(WHO) 산하 국제암연구소(IARC)에서 1군 발암물질로 분류한 대기오염물질로, 호흡기·심혈관 질환을
유발하고 장기간 노출 시 사망률을 증가시키는 등 심각한 건강 문제를 초래한다[1]. 지하철 역사 내에서는 열차 주행 시 발생하는 제동·마찰 분진, 승객 이동으로 인한 비산먼지, 터널 환기 부족 등 다양한 오염원이 복합적으로 작용하며[2,3], 외부 공기 유입이 제한된 구조적 특성상 미세먼지가 실내에 쉽게 축적된다[4]. 따라서 역사 내 공기질 관리는 승객의 안전과 쾌적성을 보장하기 위한 필수 과제이며, 송풍기와 공조기 등 환기 설비를 활용하여 외부 공기를 도입하고
내부 공기를 순환시킴으로써 미세먼지 농도를 저감하는 연구가 지속적으로 이루어지고 있다[5-7].
그러나 공조 설비의 적극적인 가동은 전력 소비 증가로 이어져 운영 비용 부담을 높이는 문제가 있다. 특히 철도 운영 시간은 하루 18시간 이상 지속되며,
부하 패턴이 시간대별로 크게 변하기 때문에 공조 설비의 최적 운전 스케줄을 수립하는 것은 쉽지 않다. 최근에는 이러한 문제를 해결하기 위해 데이터
기반의 최적화 기법과 기계학습을 활용한 연구가 주목받고 있다. 지도학습(Supervised Learning)을 이용하면 과거 데이터를 바탕으로 환경
변수와 설비 제어의 관계를 학습할 수 있고, 강화학습(Reinforcement Learning)을 적용하면 명시적 모델 없이도 상태–행동–보상 관계를
통해 최적 정책을 학습할 수 있다[8-10]. 이러한 강화학습 접근법은 불확실성이 크고 비선형 상호작용이 많은 역사 환경에서 특히 효과적이다[11].
본 연구는 이러한 기존 연구[12]를 바탕으로, 태양광 발전량과 함께 회생제동 전력 데이터를 통합한 Deep Q-Network (DQN) 기반 에너지 관리 에이전트를 제안한다. 회생전력은
열차 제동 과정에서 발생하는 운동에너지를 전기 에너지로 회수한 것으로, 이를 적절히 활용하면 외부 계통으로부터 구매하는 전력을 줄이고 에너지 비용을
절감할 수 있다. 본 연구에서는 남광주역사 변전소에서 관리하는 4개 역사(금남로4가, 문화전당, 남광주, 학동·증심사입구)의 열차 운행 시간표를 기반으로
15분 단위 회생전력 데이터를 생성하고, 가중치 배분을 통해 남광주역에서 활용 가능한 시계열 데이터를 구축하였다. 이 데이터를 상태 변수에 추가함으로써,
에이전트가 시간대별 가용 전력 상황을 반영한 제어 정책을 학습할 수 있도록 하였다.
제안한 방법은 지도학습 기반 인공신경망(ANN) 예측 모델을 통해 송풍기·공조기 제어가 미세먼지 농도에 미치는 영향을 예측하고, 이 예측 결과를 전이함수로
활용하여 DQN이 최적 정책을 학습하도록 한다. 이렇게 학습된 에이전트는 회생전력 공급이 많은 시간대에 ESS를 충전하고, 전력 요금이 높은 시간대에
방전하도록 행동을 선택하며, 동시에 환기 설비의 가동을 조정하여 PM 농도를 저감한다.
광주 남광주역을 대상으로 한 사례연구에서는 실제 PM 농도, 온·습도, 태양광 발전량, 회생전력 데이터를 학습에 사용하고, 한 달간의 데이터로 학습한
후 시뮬레이션을 통해 제안한 정책의 성능을 검증하였다. 그 결과, 회생전력 통합 시나리오에서 전력비용이 유의미하게 감소하고, ESS 충·방전이 효율적으로
이루어짐을 확인하였다.
본 논문은 다음과 같이 구성된다. 2장에서는 마르코프 결정과정을 기반으로 한 시스템 모델링을 설명하고, 3장에서는 ANN 예측 모델 개발 방법을 기술한다.
4장에서는 ANN 예측 모델을 전이함수로 활용하는 DQN 기반 에너지 관리 에이전트의 학습 구조와 최적 정책 산출 과정을 제시한다. 5장에서는 남광주역
데이터를 이용한 사례연구 결과를 분석하고, 6장에서는 결론을 서술하였다.
2. 회생제동 전력 통합 마르코프 결정 과정 기반 시스템 모델링
본 연구에서는 강화학습 기반 에너지 관리 에이전트를 설계하기 위해 연구 [13]의 MDP 프레임워크를 확장하였다. 이를 위해 마르코프 성질(Markov property)을 전제로 하여, 시간에 따른 상태 전이와 보상을 정의할
수 있는 마르코프 결정 과정(Markov Decision Process, MDP)을 새롭게 구성하였다.
시스템 모델은 상태(State), 행동(Action), 전이함수(Transition Kernel), 보상(Reward), 감가율(Discount Factor)로
이루어지며, 각 구성 요소는 본 연구에서 고려한 회생제동 전력의 특성을 반영하도록 재정의하였다.
상태 벡터는 시간 지표, 역사 내·외부의 PM2.5 및 PM10 농도, 실내외 습도와 온도, 에너지 저장장치(ESS)의 충방전 상태와 회생제동 전력
가용량으로 구성된다. t 시점의 상태는 다음과 같이 표현된다.
$I_{t}^{(1)}, I_{t}^{(2)}$ : 역사 내 PM2.5, PM10
$O_{t}^{(1)}, O_{t}^{(2)}$ : 역사 외 PM2.5, PM10
$H_{t}^{i}, H_{t}^{o}$ / $T_{t}^{i}, T_{t}^{o}$ : 내외부 습도/온도
$SoC_{t}$ : ESS 상태
$R_{t}$ : 회생제동 전력 (15분 단위 가용량)
행동 벡터는 송풍기와 공조기의 운전 단계, 그리고 ESS의 충·방전 지시로 구성된다. 각 제어 입력은 단계별로 이산값을 갖도록 하여, 실제 운전 스케줄을
반영할 수 있도록 설계하였다. 회생전력 공급량이 많은 시점에서는 ESS 충전을 우선적으로 선택할 가능성이 높도록 학습이 진행된다.
$v_{t}^{(k)}$ : k 번째 송풍기 단계 (이산)
$w_{t}^{(l)}$ : l 번째 공조기 단계 (이산)
$b_{t}$ : ESS 충방전 제어 (>0: 충전, <0: 방전)
전이함수는 현재 상태 $s_{t}$와 행동 $a_{t}$가 주어졌을 때 다음 상태 $s_{t+1}$로 전이될 확률 분포를 나타낸다. 본 연구에서는
과거 데이터와 인공신경망(ANN)을 이용해 전이함수를 근사하였으며, 입력 변수에 회생전력 항 $R_{t}$를 포함하여 ESS 상태 변화와 향후 전력
비용에 미치는 영향을 반영하였다.
$\Phi_{\theta}$ : 학습된 ANN 전이 모델
보상은 미세먼지 농도 감소 효과, 전력비용, 회생전력 활용량을 함께 고려하여 정의하였다. 우선 시간 $t$의 총 설비 요구전력에서 태양광 및 회생전력
공급량을 차감하여 순수 수전량을 구하고, 이에 시간대별 전력단가를 곱해 비용을 계산하였다.
$e_{t}$ : 시간 $t$에 요구되는 전력소비량
$P_{t}^{pv}$ : 시간 $t$에 생산된 태양광 발전 전력량
또한, 미세먼지 농도 변화량 $\Delta I_{t}^{(1)}$, $\Delta I_{t}^{(2)}$를 보상 항에 포함하고, 회생전력 활용량 $u_{t}$에
비례하는 추가 보상 항을 부여하였다. 최종 보상함수는 다음과 같다.
$\alpha , \eta$ : 미세먼지 저감 가중치, 회생전력 활용 가중치
감가율 $\gamma$는 현재 보상과 미래 보상의 상대적 가치를 결정하며, 본 연구에서는 유한 시간 지평을 고려하여 $\gamma = 1$로 설정하였다.
3. 역사 내 미세먼지 농도 예측 모델 개발
앞서 정의한 시스템 모델을 바탕으로, 역사 내 미세먼지 농도의 변화를 정량적으로 예측하기 위해 지도학습 기반 인공신경망(ANN)을 활용한 예측 모델을
설계하였다. 이 모델은 시간 $t$에서의 상태 벡터 $s_{t}$와 행동 $a_{t}$를 입력으로 받아, 다음 시점의 PM2.5 및 PM10 농도
$\hat{I}_{t+1}$를 출력한다. 특히 본 연구에서는 기존 모델에 태양광 발전량 $P_{t}^{pv}$과 회생제동 전력 $R_{t}$을 추가
입력으로 포함시켜, 시간대별 가용 전력 상태가 미세먼지 농도 변화 예측에 반영되도록 하였다.
인공신경망은 다층 퍼셉트론(Multilayer Perceptron) 구조로 구성되며, $k$번째 층의 입력 벡터를 $X_{k}$, 출력 벡터를 $X_{k+1}$라
하면 다음과 같은 관계로 계산된다[14].
$W_{k}, b_{k}$ : $k$ 번째와 $k+1$ 번째 층 사이의 가중치 행렬과 바이어스
$\sigma(\cdot)$는 비선형 활성화 함수(예: ReLU)를 의미한다. 순전파(forward propagation)를 통해 출력층에서 예측된
농도 $\hat{I}_{t+1}$를 계산한 후, 이를 실측값 $I_{t+1}$과 비교하여 손실함수를 구한다. 손실함수는 평균제곱오차(Mean Squared
Error, MSE)로 정의되며, 다음과 같다[15].
손실함수 $\ell$이 계산되면, 역전파(backpropagation)를 통해 가중치 $W_{k}$와 바이어스 $b_{k}$가 경사하강법으로 업데이트된다.
$n$번째 반복 학습에서의 가중치 갱신에 대한 식은 다음과 같이 나타낼 수 있다.
여기서 $\eta$는 학습률(learning rate)이다. 반복 학습을 진행할수록 손실함수 값이 점차 감소하며, ANN 모델은 실제 측정값과 가까운
예측값을 출력하도록 점진적으로 개선된다.
본 연구의 예측 모델은 설비 제어 신호와 환경 변수 외에도 시간대별 회생전력 공급 패턴을 함께 학습함으로써, 가용 전력 상황에 따른 환기설비 가동
영향까지 반영된 미세먼지 농도 예측을 가능하게 한다. 이는 후속 단계인 강화학습에서 더 현실적인 상태 전이 정보를 제공하여, 에이전트가 비용 효율적이면서도
공기질 개선 효과가 높은 정책을 학습하도록 돕는다.
4. 에너지 관리 에이전트 개발
4.1. 회생전력 통합 에너지 관리 에이전트 개발
앞서 2장에서 정의한 보상함수 $r_{t}$와 할인계수 $\gamma$를 이용하여, 본 연구에서는 DQN 기반 에너지 관리 에이전트를 학습하였다.
목표는 주어진 기간 $t = 1 ... T$ 동안 기대되는 누적 보상의 합을 최대화하는 정책 $\pi^{*}$를 찾는 것이다. 최적화 문제는 다음과
같이 표현된다.
여기서 $\pi$는 상태 $s_{t}$에서 행동 $a_{t}$를 선택하는 정책을 나타낸다.
정책은 파라미터 $\theta$로 매개변수화된 Q함수 $Q_{\theta}(s_{t}, a_{t})$를 통해 간접적으로 구해지며, 최적 정책은 다음
식으로 정의된다.
본 연구에서 사용한 Q함수 근사기는 인공신경망으로 구현되었으며, 입력은 식 (1)의 상태 $s_{t}$로 구성되어 회생전력 $R_{t}$이 포함된다. 출력은 가능한 모든 행동 $a_{t}$에 대한 Q값의 근사치를 제공한다.
Q함수는 벨만 최적 방정식(Bellman optimality equation)을 만족해야 한다.
이를 근사하기 위해 손실함수 $\ell(\theta)$는 아래와 같이 정의된다.
여기서 $\theta^{-}$는 Target network의 파라미터이며, 일정 학습 주기마다 Train network 파라미터 $\theta$로
갱신된다. Target network를 도입함으로써 학습 과정에서 발생할 수 있는 발산 문제를 완화하고 수렴 안정성을 확보하였다[16].
손실함수는 확률적 경사하강법(Stochastic Gradient Descent)을 사용하여 최소화하며, 파라미터 갱신식은 다음과 같다.
여기서 $\eta$는 학습률이다.
기대값 계산은 현실적으로 어려우므로, 식 (14)와 같이 정책을 따르는 궤적(trajectory)을 샘플링하여 근사적으로 평가한다.
여기서 $\mathbf{B}$는 경험재현 버퍼(Experience replay buffer)에서 샘플링한 미니배치(mini-batch)를 나타낸다.
경험재현(Experience replay) 기법은 과거의 경험을 무작위로 재사용하여 데이터 상관성을 줄이고 학습 효율을 높인다[17].
탐색(exploration)과 활용(exploitation)의 균형을 위해 $\epsilon$ 정책을 적용하였다. 학습 초기에는 $\epsilon$확률로
무작위 행동을 선택하여 충분한 탐색을 보장하고, 학습이 진행될수록 $\epsilon$값을 점진적으로 감소시켜 점차 최적 정책에 수렴하도록 유도하였다.
이와 같은 학습 과정에서 회생전력이 많이 발생하는 시간대에는 Q값이 상대적으로 높게 평가되어, 에이전트가 ESS 충전을 우선하거나 환기설비 가동을
강화하는 방향으로 행동을 선택하게 된다. 이를 통해 에너지 비용 절감과 공기질 개선을 동시에 달성할 수 있도록 정책이 최적화된다.
4.2 ANN 예측모델 기반 DQN 에너지 관리 에이전트
최종적으로 3장에서 구축한 ANN 기반 미세먼지 농도 예측 모델을 전이함수로 활용하여, DQN 기반 에너지 관리 에이전트를 구성하였다. 전체 프로세스는
그림 1에 제시된 바와 같이 동작한다.
그림 1. 에너지 관리 에이전트 동작 과정 [12]
Fig. 1. Operation process of the Energy Management Agent [12]
본 연구에서 제안한 프레임워크는 크게 두 개의 모듈로 구성된다. Fig. 1 상단의 모듈은 DQN 네트워크로, 현재 상태 $s_{t}$가 주어졌을
때 가능한 행동 $a_{t}$들의 Q값을 계산하고, 그 중 가장 높은 값을 가지는 행동을 선택한다. 하단의 모듈은 ANN 기반 예측 모델로, 선택된
행동 $a_{t}$을 상태 $s_{t}$와 함께 입력으로 받아 다음 시점의 상태 $\hat{s}_{t}$를 추정한다.
이 과정을 통해 ANN은 송풍기 및 공조기 제어, ESS 충·방전, 회생전력 활용 여부가 다음 시점의 미세먼지 농도 및 가용 전력 상태에 미치는 영향을
예측한다. 예측된 $\hat{s}_{t+1}$는 다시 DQN의 입력으로 제공되어 정책 평가와 업데이트에 활용된다. 이러한 구조를 통해 에이전트는 시행착오
학습 없이 과거 데이터를 기반으로 최적 행동을 학습할 수 있다.
실행 단계에서는 각 시간 $t$마다 다음과 같은 순서로 동작한다.
-
- 현재 상태 $s_{t}$를 관측
-
- DQN을 통해 최적 행동 $a_{t}$을 선택
-
- ANN 전이모델을 이용하여 $s_{t}$, $a_{t}$로부터 $\hat{s}_{t+1}$를 예측
-
- 예측된 상태와 보상 $r_{t}$를 기반으로 Q-network를 업데이트
-
- 다음 시점으로 이동하여 반복
이 과정은 그림 2의 알고리즘으로 요약할 수 있다.
그림 2. 인공신경망 예측모델을 활용한 DQN 기반 에너지 관리 에이전트의 최적 운영 알고리즘
Fig. 2. Optimal operation algorithm of the DQN-based energy management agent using
ANN prediction model
그림 2에서 볼 수 있듯, 제안된 에이전트는 회생전력의 공급 패턴까지 고려하여 ESS 충·방전 스케줄과 환기설비 제어를 조율한다. 회생전력이 집중되는 시간대에는
ESS 충전과 송풍기 가동이 증가하고, 에너지 비용이 높은 시간대에는 ESS 방전을 활용하여 비용 절감을 유도한다. 이로써 미세먼지 농도 저감과 에너지
비용 최소화를 동시에 달성하는 정책을 실현할 수 있다.
5. 사례 연구
5.1 대상 시스템
제안한 ANN+DQN 기반 에너지 관리 에이전트의 효과를 검증하기 위해 광주 남광주역데이터를 활용한 시뮬레이션을 수행하였다. 시스템 상태는 식 (1)에서 정의한 대로 시간, 미세먼지 농도, 온·습도, ESS SoC, 태양광 발전량 $P_{t}^{pv}$, 회생전력 $R_{t}$으로 구성된다.
행동 공간은 송풍기 3대($v_{1}, v_{2}, v_{3}$)와 공조기 2대($w_{1}, w_{2}$)에 대해 각각 단계적 제어가 가능하다고
가정하였다. 송풍기는 3단계(OFF, 50%, 100%), 공조기는 2단계(OFF, ON)로 모델링하였으며, ESS는 최대 충·방전(±1), 50%
충·방전(±0.5), 대기(0) 총 5단계로 제어하도록 설정하였다. 그 결과 총 행동 조합은 540개로 정의되었다.
인공신경망 기반 미세먼지 예측 모델의 입력 노드는 상태 10개(회생전력 포함) + 행동 5개를 합한 15개로 구성되었으며, 출력 노드는 PM2.5,
PM10 두 개로 설정하였다. DQN의 입력은 상태 10개, 출력은 가능한 행동 조합의 Q값으로 구성하였다. 모든 모델은 Python, TensorFlow,
Keras환경에서 구현 및 학습되었다[18].
역사에 설치된 태양광 발전 시스템의 사양은 표 1과 같다. 발전량은 그림 3과 같이 하루 15분 간격으로 측정된 실 데이터를 활용하였다.
표 1. 태양광 발전 정보 [12]
Table 1. Solar Power Generation Information [12]
|
모듈 개수
|
7(직렬) × 3(병렬) = 총 21
|
|
모듈 당 용량
|
460 W / 모듈
|
|
총 용량
|
9.66 kW
|
본 연구에서는 열차 운행 시간표를 기반으로 역사별 회생전력 데이터를 산출하였다. 각 열차가 정차할 때마다 약 3 kWh의 회생전력이 발생한다고 가정하였으며,
상행·하행 열차 모두를 고려하였다.
그림 3. 시간별 태양광 발전량
Fig. 3. Hourly Solar Power Generation
먼저 각 역별 정차 시각을 15분 단위로 집계하여 구간별 발생 횟수를 계산하고, 다음 식과 같이 시간대별 회생전력을 산출하였다.
여기서 $N^{stop}_{t}$는 해당 시간대 $t$에 정차한 열차의 수(상·하행 합계)이다. 예를 들어, 08:01과 08:12에 각각 열차가
정차하면 해당 15분 구간(08:15 기준)에서 총 6 kW의 회생전력이 생성된 것으로 계산된다.
산출된 전력량은 남광주역을 기준으로 가중치를 적용해 배분하였다. 예를 들어, 인접역(문화전당, 학동·증심사입구)에서 발생한 회생전력은 90%를, 두
정거장 떨어진 금남로4가에서 발생한 전력은 81%가 남광주 변전소로 전달된다고 보았다. 그림 4는 이렇게 계산된 회생전력이다. 이 과정을 거쳐 남광주역에서 실제로 활용 가능한 회생전력 시계열 데이터를 구축하였으며, 본 연구의 ANN+DQN 학습
과정에서 상태 변수 $R_{t}$로 입력하였다.
그림 4. 시간대별 회생제동 전력
Fig. 4. Time-series regenerative braking power
이 두 데이터셋은 ANN 예측모델과 DQN 학습 시 상태 입력으로 동시에 제공되어, 정책이 시간대별 가용 전력 상황을 고려하도록 하였다.
한 달간의 데이터를 15분 단위로 업데이트하여 학습 데이터셋으로 사용하였으며, DQN은 20,000 에피소드 동안 학습하여 정책이 수렴하는지 확인하였다.
학습은 ε-greedy 탐색과 경험재현(Experience Replay) 기법을 적용하였다.
5.2 결과 분석
결과 분석을 위해 다음 두 시나리오를 구성하였는데, [12]의 사례연구에 따라 태양광이 설치된 경우(Case 1)와 이 연구에서 제안하는 바와 같이 회생전력을 통합하여 학습을 시킨 경우(Proposed)이다.
각 시나리오는 동일한 환경 변수와 전력 단가 조건에서 학습되었으며, 학습 데이터는 15분 단위로 구축된 한 달간의 시계열 자료를 사용하였다.
그림 5는 학습 과정에서의 보상값 변화를 보여준다. 두 시나리오 모두 학습이 진행됨에 따라 보상이 점차 증가하며 안정적으로 수렴하는 경향을 보였으나, 회생전력을
통합한 경우(Proposed)가 PV-only 대비 더 높은 보상 수준을 달성하였다. 이는 회생전력이 상태 변수로 포함되어, 에이전트가 가용 전력
상황을 효율적으로 활용한 결과이다
그림 5. 학습 과정 중 보상값의 변화
Fig. 5. Changes in Reward Values during the Learning Process
표 2는 최종 보상값을 비교한 결과이다. Proposed 시나리오에서 총 보상(Total)은 -2709.7로 Case 1의 -2941.2보다 개선되었으며,
제어(Control) 및 미세먼지(PM) 관련 보상에서도 상대적으로 우수한 성능을 보였다. 반면 배터리 보상은 Case 1이 더 높았는데, 이는 회생전력을
활용한 경우 ESS 충·방전 전략이 달라지면서 나타난 결과로 해석된다.
표 2. 각 경우의 보상값
Table 2. Reward Values for Each Case
|
|
Total
|
Control
|
Battery
|
PM
|
|
Propose
|
-2709.7
|
-149.07
|
-188.37
|
-2372.25
|
|
Case 1
|
-2941.2
|
-183.92
|
324.23
|
-3081.52
|
그림 6은 하루 동안의 정규화된 PM 농도 변화를 나타낸다. Proposed 시나리오에서는 송풍기와 공조기의 가동이 회생전력 확보 시간대에 더 적극적으로
이루어져, 농도가 더 빠르게 저감되는 결과를 보였다. 이는 회생전력 공급이 환기 설비 운전에 긍정적으로 기여했음을 시사한다.
그림 6. 미세먼지 농도 정규화 수치의 변화
Fig. 6. Changes in Normalized Values of Fine Dust Concentration
그림 7은 배터리 SoC와 전력 단가의 정규화된 변화를 보여준다. Case 1에 비해 Proposed 시나리오에서는 회생전력이 집중되는 시간대에 ESS 충전이
활발히 이루어졌으며, 전력 단가가 높은 시간대에는 방전을 수행하여 비용 절감 효과가 극대화되었다. 이를 통해 ESS의 운전 패턴이 보다 안정적으로
형성되었음을 확인할 수 있다.
그림 7. 배터리 SoC와 전력단가 정규화 수치의 변화
Fig. 7. Changes in Normalized Values of Battery SoC and Power Price
사례연구 결과, 회생전력 데이터를 통합한 에너지 관리 에이전트는 PV-only 기반 방법에 비해 총 보상 향상, 미세먼지 저감 속도 개선, ESS
충·방전 안정성 확보 등 다양한 측면에서 우수한 성능을 나타냈다. 이는 실제 역사 운영에서 회생전력을 활용할 경우 에너지 비용 절감과 공기질 개선을
동시에 달성할 수 있음을 보여준다.
6. 결 론
본 연구는 역사 내 공기질 개선과 에너지 비용 절감을 동시에 달성하기 위해 태양광 발전과 회생제동 전력을 통합한 인공지능 기반 에너지 관리 에이전트를
제안하였다. 시스템은 마르코프 결정과정으로 모델링되었으며, 상태 변수에 회생전력 항을 추가하여 시간대별 가용 전력의 변동성을 반영할 수 있도록 설계하였다.
이를 통해 학습 과정에서 에이전트는 전력 공급 여건을 고려한 보다 현실적인 제어 정책을 학습할 수 있었다.
연구의 첫 단계에서는 지도학습 기반 인공신경망을 이용해 송풍기와 공조기 제어가 미세먼지 농도에 미치는 영향을 예측하는 전이모델을 구축하고 학습하였다.
이후 강화학습 알고리즘인 DQN을 활용하여 상태별 Q값을 근사하고, 회생전력 공급 패턴과 전력 단가 변화를 고려한 최적 정책을 도출하였다. 이 접근
방식은 시행착오를 직접 겪지 않고도 과거 데이터를 기반으로 안정적으로 정책을 학습할 수 있게 하였으며, 에이전트가 보상함수를 최대화하도록 동작하도록
유도하였다.
광주 남광주역의 실제 데이터를 활용한 사례연구에서는 학습된 정책이 회생전력이 집중되는 시간대에 ESS를 충전하고 전력 요금이 높은 시간대에 방전함으로써
비용 절감을 극대화하는 방향으로 행동을 선택함을 확인하였다. 이 과정에서 환기설비의 가동도 회생전력이 확보된 시간대에 더욱 적극적으로 이루어져 미세먼지
농도가 더 빠르게 감소하였으며, ESS의 충·방전 패턴이 안정화되어 전체 시스템 운전이 보다 효율적으로 이루어졌다.
이와 같은 연구 결과는 신재생 에너지와 회생에너지를 함께 고려한 지능형 역사 에너지 관리 전략의 가능성을 제시하며, 실제 철도 역사에서의 공기질 관리와
에너지 운영의 효율성을 향상시킬 수 있을 것이다. 또한 본 연구의 접근법은 향후 철도뿐 아니라 다른 공공시설에도 적용 가능성이 있으며, 지속 가능한
교통 인프라 구축에 기여할 수 있을 것으로 기대된다.
Acknowledgements
This research was supported by a grant from the R&D program (Development of smart
energy management and performance evaluation technology for railway stations based
on virtualization, PK2503C1) of the Korea Railroad Research Institute, Republic of
Korea.
References
M. J. Yeo, Y. P. Kim, 2019, Trends of the PM 10 Concentrations and High PM 10 Concentration
Cases in Korea, Journal of Korean Society for Atmospheric Environment, Vol. 35, No.
2, pp. 249-264

X. Querol, 2012, Variability of levels and composition of PM10 and PM2.5 in the Barcelona
metro system, Atmospheric Chemistry and Physics, Vol. 12, No. 11, pp. 5055-507

T. Moreno, 2014, Subway platform air quality: assessing the influences of tunnel ventilation,
train piston effect and station design, Atmospheric Environment, Vol. 92, pp. 461-468

J. Baek, 2015, A Study on the Relationship between the Indoor and Outdoor Particulate
Matter Concentration by Infiltration in the Winter, Journal of the Architectural Institute
of Korea, Vol. 31, No. 9, pp. 137-144

H. Lim, T. Yin, Y. Kwon, 2019, A Study on the Optimization of the Particulate Matter
Reduction Device in Underground Subway Station, pp. 3786-3786

S. Park, 2018, Prediction of Particulate Matter(PM) using Machine Learning, pp. 499-500

Y. Kim, B. Kim, S. Ahn, 2022, Application of spatiotemporal transformer model to improve
prediction performance of particulate matter concentration, Journal of Intelligent
Information System, Vol. 28, No. 1, pp. 329-352

J. Kim, K. Lee, J. Bae, 2020, Construction of real-time Measurement and Device of
reducting fine dust in Urban Railway, pp. 101-102

Y. Lee, 2022, Analysis of the Correlation between the Concentration of PM 2.5 in the
Outside Atmosphere and the Concentration of PM 2.5 in the Subway Station, Journal
of Korean Society for Atmospheric, Vol. 38, No. 1, pp. 1-12

M. S. Kim, 2020, Research & Trends for Converged AI Technology based on Unsupervised
Reinforcement Learning, Journal of Korean Society of Computer Information, Vol. 28,
No. 1

R. S. Michalski, J. G. Carbonell, T. M. Mitchell, 2013, Machine Learning: An Artificial
Intelligence Approach

J. Park, 2024, Energy Management Agent for Regulating Particulate Matter in Railway
Stations with Photovoltaic Power, The Transactions of the Korean Institute of Electrical
Engineers, Vol. 73, No. 10, pp. 1786-1793

K. Kwon, 2021, Reinforcement Learning-based HVAC Control Agent for Optimal Control
of Particulate Matter in Railway Stations, The Transactions of the Korean Institute
of Electrical Engineers, Vol. 70, No. 10, pp. 1594-1600

J. R. Norris, 1997, Markov Chains

M. Minsky, S. A. Papert, 1987, Perceptrons: An Introduction to Computational Geometry

B. Recht, 2019, A tour of reinforcement learning: The view from continuous control,
Annual Review of Control, Robotics, and Autonomous Systems, Vol. 2, No. 1, pp. 253-279

L.-J. Lin, 1992, Self-improving reactive agents based on reinforcement learning, planning
and teaching, Machine Learning, Vol. 8, No. 3, pp. 293-321

, https://github.com/fchollet/keras

저자소개
He received the B.S., M.S., and Ph.D. degrees from Seoul National University, Seoul,
Korea, in 1999, 2001, and 2007, respectively. He was a Senior Researcher at LS Electric
Co., Ltd., Korea from 2009 to 2013. Currently, he is a Principal Researcher at Korea
Railroad Research Institute (KRRI) since 2013. His recent research interests include
the optimal operation of power systems in railway with the smart grid technology.
He received a B.S degree in Naval Architecture and Ocean Engineering from Seoul National
University, Republic of Korea, in 2008. Currently, He is a team leader at RaonFriends
Co., Ltd., Korea from 2019. He recent research interests include the Power system,
Urban railroad and AI.
He received a B.S degree in Electric System Engineering from HanYang University, Republic
of Korea, in 2017. Currently, He is a development Manager in the AI Algorithm Development
at RaonFriends Co., Ltd., Korea from 2020. He recent research interests include Battery
Management System, and Battery Performance Diagnostics.
He was born in Korea in 1978. He received his Ph.D. degree in Electrical Engineering
from Seoul National University, Korea. Currently, he works at the RaonFriends Co.
that is a consulting company for the power system and power system economics. His
research field of interest includes power system reliability, equipment maintenance
and urban railroad.
He received a B.S. and M.S. degree in Electrical and computer engineering from Seoul
National University, Republic of Korea, in 2012 and 2014, respectively. He is currently
pursuing a Ph.D. degree from The University of Texas at Austin from 2019. He is currently
on an internship in R&D department of Raon Friends, Anyang, South Korea.
He received a B.S and M.S. degree in Electrical engineering from Sungkyunkwan University,
Republic of Korea, in 1995 and 1998, respectively. He received a Ph.D. degree from
the Electrical Electronic and Computer Engineering from Sungkyunkwan University in
2002. He is currently a chief Researcher with the Smart Electrical & Signaling Division,
Korea Railroad Research Institute, Uiwang, South Korea.