[리더의 고민] 1. 개발자의 장기적인 업무 성과를 예측하는 요인이 뭘까?

Google Deep Research에는 실망했지만 Perplexity로는 절반의 성공을 거두었습니다.
💡
개발팀 리드로서 고민해왔던 여러 의문들을 AI와 함께 탐구해보는 프로젝트입니다. 2025년동안 100개를 다뤄보려는 야심찬 계획을 세웠습니다. 더 자세한 배경은 소개글을 참고해주세요.

주 2회 정도 공유하겠다고 한지 2주나 지났는데 이제야 프로젝트 첫 글을 올리네요. 막상 시작해보니 Google Deep Research가 생각보다 별로여서 고민이 좀 있었던 차에 여러가지 마감이 닥쳐서 시간을 내지 못했습니다. 그러다가 어차피 첫술에 배부를 수 없으니 결과보다는 과정을 공유하는 게 낫겠다 싶어, 조금 엉성하더라도 첫번째 글을 내보냅니다.

해보면서 느낀 바를 간단히 요약하면:

  • Google Deep Research로 주제에 대한 개괄적인 흐름은 잘 읽을 수 있었지만, 환각도 많았고 출처 정보들에 타당한 근거가 있는지 확인하기도 어려웠습니다. 논문에서 찾아달라고 명확히 요구해도 웹페이지 위주로 분석하더군요.
  • Google Deep Research가 결과를 깔끔한 Google Docs로 만들어준다는 건 좋았으나, Gemini UI에서 볼 때와 달리 개별 단락에 대한 출처로 바로 이동하기 어려운 건 불만스러웠습니다.
  • Google Deep Research의 보고서를 보면서 '아, 내가 탐구하고픈 질문이 이거였구나'가 빠르게 명확해진 건 좋았어요. 저는 '개발자의 장기적인 업무 성과를 예측하는 요인'을 알고 싶은 것이었습니다. 그래서 이걸로 다시 물어보고, 영어로도 물어봤는데 여전히 논문 위주로 좋은 보고서를 만들어주지는 못했습니다.
  • Perplexity에게도 물어봤더니 여전히 환각이 있긴 했지만 Google Deep Research보다는 훨씬 잘 정리해주더군요. 재밌는 건, 분명 Google Deep Research도 같은 출처를 찾았는데 무시했던 좋은 논문을 Perplexity는 잘 참조했다는 겁니다.
  • 따라서 (적어도 질문이 명확해진 뒤에는) Perplexity + NotebookLM 조합으로 연구해보는 게 더 괜찮아 보입니다. 논문 찾는 건 Perplexity로, 자세히 보는 건 NotebookLM으로 하는 식? 다음에는 Genspark와 Perplexity도 비교해보려고 합니다.

이하 좀 더 자세한 내용으로 이어집니다. (이하 편의상 Google Deep Research는 GDR, Perplexity는 PER, NotebookLM은 NLM 으로 표기)


1차 시도: [GDR/250114] 채용 과정에서 개발자의 실력을 정량적으로 측정할 수 있을까

우선 이 프로젝트에 대해 Gemini에게 알려준 다음 이렇게 요청했습니다.

"채용 과정에서 개발자의 **실력**을 정량적으로 측정할 수 있을까?" 이 질문에 대해 탐구하기 위해 영어로 된 논문들 위주로 찾고 싶어. 구체적으로 어떤 사람들을 대상으로 어떤 시도들이 있었고, 장기적으로 유효했는지 등.

GDR은 이렇게 연구하겠다고 했고, 결과는 이랬습니다.

(1) "Measuring developer skills in the hiring process" 라는 주제로 영어 논문을 검색합니다.
(2) 개발자 채용 과정에서 지원자의 실력을 정량적으로 측정하기 위한 다양한 방법들을 조사합니다. (예: 코딩 테스트, 기술 면접, 프로젝트 포트폴리오 평가 등)
(3) 각 방법의 장단점과 실제 효과를 분석합니다. (예: 측정의 정확성, 효율성, 편의성, 지원자 경험 등)
(4) 특히 장기적인 관점에서 각 방법이 개발자의 실제 업무 성과와 어떤 관련성을 보이는지 분석합니다.
(5) 다양한 규모의 기업, 다양한 직군의 개발자를 대상으로 한 연구 결과를 종합적으로 분석합니다.
(6) 딥리서치와 노트북LM을 활용하여 관련 논문을 찾고, 분석 결과를 요약하고 시각화합니다.
(7) 연구 결과를 바탕으로 개발자 채용 과정에서 실력을 정량적으로 측정하기 위한 효과적인 방법을 제시합니다.

This post is for subscribers only