SRE.jpg

🪄이달의 카터뷰는 각자의 자리에서 치열하게 성장하고 있는 카카오스타일 크루들의 일과 삶에 대한 이야기를 소개하는 인터뷰 시리즈입니다. 네번째 주인공은 카카오스타일 서비스의 안정성을 책임지며 신뢰성을 지켜나가는 SRE팀 레오, 헤니, 네사와 함께했습니다. 데이터베이스(DB)부터 서버 안정성, 사이트 신뢰성까지 더 안정적으로 서비스가 운영될 수 있도록 보이지 않는 곳에서 끊임없이 도전하고 있는 레오와 헤니, 그리고 네사를 소개합니다.

지금 이야기를 만나보세요-!


🧑‍💻안녕하세요 레오, 헤니 네사! 카카오스타일에서 무슨 일을 하고 계신지 소개해주세요!

레오 : 안녕하세요! SRE팀 리더 레오입니다. SRE가 생소한 분들이 많을 텐데요. SRE는 ‘사이트 신뢰성 엔지니어’라는 뜻으로, 쉽게 말해 카카오스타일 서비스에 장애가 나지 않도록 여러 도구를 개발하고 관리하는 역할을 하고 있어요. 이를 위해 저희 팀은 서버 인프라 자원, 배포 솔루션 등을 관리하는 데브옵스(**DevOps, 개발(Development)과 운영(Operations)의 합성어로 개발팀과 운영팀이 협업하여 전체 사이클을 관리하는 방식으로 개발이 완료된 시스템은 운영팀에서 배포 및 운영하는 것)뿐만 아니라 화이트 해커, DB 엔지니어로 구성되어 신뢰성 있는 환경 제공을 위한 모든 것들을 하고 있다고 봐주시면 돼요.

저는 요즘 핀옵스(**FinOps: Financial과 DevOps가 합쳐진 말로 클라우드 환경에서 재무와 개발, 운영을 긴밀히 결합하여 클라우드 비용을 최적화하고 관리, 통제할 수 있도록 하는 것) 관련 업무를 중점적으로 담당하고 있는데요. 우리의 인프라 자원 비용을 어떻게 효율화할 수 있을지 고민하면서 기술적으로 많은 구조 개선을 해오고 있습니다.

헤니 : 안녕하세요! 저는 SRE팀의 헤니입니다! 저는 자동화를 위한 여러 툴을 개발하고, 쿠버네티스(Kubernetes)라는 인프라를 관리하는 시스템도 함께 담당하고 있어요.

네사 : 안녕하세요! :) SRE팀 네사입니다! 사실 SRE 자체가 특정 영역이 정해져 있는 것이 아니다 보니, 헤니와 같은 SRE로서 인프라를 포함한 전반적인 사이트 신뢰성을 위한 다양한 업무를 하고 있어요. 그 중 저는 간단한 툴 개발부터 쿠버네티스 운영, AWS 인프라 관련 자원 관리 등을 담당하고 있습니다.

🧑‍💻각자 카카오스타일 SRE팀에 합류한 에피소드가 있을까요?

IMG_1516.jpg

헤니 : 저와 레오는 사실 DB팀이었지만, 조직 개편에 따라 업무 분장에도 변화가 생기면서 SRE 업무까지 담당하게 되었는데요. 인프라와 DB는 연관성이 있고 저희 모두 다양한 경력을 갖고 있다 보니 SRE 업무를 바로 시작하는 데에 어려움이 적었고, 오히려 좋은 기회였다고 생각해요.

레오 : 헤니 말을 들으니 그때가 생각이 나네요! (웃음) SRE 업무를 하려면 AWS에 대해 잘 알아야 하는데요. 헤니는 AWS 회사에서의 경험이 있고, 저도 예전부터 사용하면서 얻은 이해도가 있어서 "같이 한번 해 보자!"고 할 수 있었어요. 다행히 그 시점에 저희가 DB팀에서 작업하고 있던 디비옵스(DbOps)툴이 반영된 시점이라 많은 것들이 자동화가 된 상태였어요. 그래서 SRE 업무와 팀을 꾸려 나가는 데 집중할 수 있었죠.

네사 : 저는 AWS에서 운영 보단 컨설팅에 집중한 업무들을 했었는데요. 직접 운영하면서 제대로 알고 싶은 목마름이 항상 있었기 때문에 카카오스타일 SRE팀에서 일할 수 있는 것이 저에겐 굉장히 간절했고, 입사가 결정되었을 때 매우(!!) 기뻤답니다. 😄입사 후 역시나 너무 만족하면서 다니고 있어요!

🧑‍💻그럼 합류하신 후 느낀 SRE팀만의 장점은 무엇이라고 생각하시나요?

헤니 : 저희 팀에는 다양한 경력을 가진 크루들이 모여 있어요. 예를 들어 저는 개발, DB, 솔루션즈 아키텍트(**고객사들에 클라우드 전략을 소개하고 클라우드 전환 업무를 지원하는 역할)에 경험이 있고, 네사는 인프라, 보안 관련 경력이 있고, 레오는 DB관련 스페셜리스트이고요. 이렇게 각자가 지닌 경험의 교집합보단 합집합이 커서 시너지를 낼 수 있는 동료들이 있기 때문에 일을 할 때 많은 도움이 돼요. 새로운 지식을 얻는 것도, 기술적인 문제를 해결해 나가는 과정에서도 배울 점이 참 많다는 것이 가장 큰 장점입니다!

레오 : 사실 저희 팀 장점은 100개가 넘는데요! (웃음) 그중 꼭 하나만 꼽아야 한다면 SRE나 데브옵스(DevOps)가 갖는 다양한 영역 중 실질적으로 필요하다고 생각하는 분야에 대해 깊게 파고들면서 적용해볼 수 있다는 점이에요. 그리고 근거와 방향성이 합리적이라면 프로덕션(제품)까지 확장할 수 있어요. 이렇게 할 수 있는건 회사의 조직 문화와도 연관이 있다고 생각하는데요. 딱딱한 조직 환경이 아니고 서로 의견을 내는 것이 어렵지 않고 편한 환경이기 때문에 이런 적용과 확장이 가능한 것 같아요. 그리고 사이먼(CTO)도 많은 서포트를 해주기 때문에 누구나 가질 수 있는 기회라 생각해요.

네사 : SRE는 진짜 제대로 하려면 아무나 할 수 있는 일이 아니라고 생각해요. 저 역시 매일 매일 챌린지를 겪으며 조금씩 성장하고 있어요. 쉽지 않은 일이지만 계속해서 성장을 느낄 수 있는 게 카카오스타일 SRE만의 강점이자 매력이고, 제가 하는 일에 대한 자부심이기도 해요. 언제 어디서 사이트 신뢰성 문제가 발생할지 모르기 때문에 다양한 도메인에 대한 이해와 함께 작은 것도 빠짐없이 챙길 수 있는 사람들이 모여 있는 곳이 저희 팀이라고 생각합니다!