Digitalian

"인간과 인공지능"

학습여정/인공지능

데이터란 무엇일까?

digitalian 2025. 6. 28. 17:00

“강의에서 배운 내용을 정리해 공유합니다. 실전으로 활용하시기 바랍니다.”


1. AI를 위한 데이터란 무엇인가? (입력과 출력의 관계)

  • AI에게 데이터는 '학습자료'이며, 
  • 주로 입력(A)과 출력(B)의 관계로 정의됩니다. 
  • AI는 수많은 A와 B의 쌍을 학습하여, 
  • 새로운 A가 주어졌을 때 올바른 B를 예측하거나 생성하는 능력을 키웁니다.
  • 핵심 개념: AI는 입력(A)을 받아 원하는 출력(B)을 만들어내는 '매핑(mapping)'을 학습합니다.
  • 유연성: 무엇을 A(입력)로 삼고 무엇을 B(출력)로 할지는 비즈니스 목표에 따라 달라집니다(→ DG생각: 다양한 컨셉의 다양한 모델 등장 이유일 듯)
(예시 1) 주택 가격 예측:
  • 집 크기(A) → 가격(B)
  • [집 크기, 방 개수](A) → 가격(B)
  • 예산(A) → 구매 가능한 집 크기(B)
(예시 2) 이미지 인식:
  • 이미지(A) → "고양이 유무" 라벨(B)

 

 

2. AI 학습 데이터는 어떻게 얻는가?

가치 있는 데이터 세트를 확보하는 방법은 크게 4가지가 있습니다.
수동 라벨링 (Manual Labeling)
  • 사람이 직접 이미지, 텍스트 등의 데이터에 정답(라벨)을 일일이 붙이는 방식입니다. 
  • 가장 기본적인 방법이지만, 정확한 데이터 세트를 구축할 수 있습니다.
→ 예: 수많은 사진을 보며 '고양이' 또는 '고양이 아님'으로 분류하기 (→ DG생각: 이런 데이터 라벨링 회사가 많이 생기고 있습니다. 2025년 기준)
 
사용자 및 기계 행동 관찰 (Observing Behavior)
  • 사용자의 서비스 이용 기록이나 기계의 작동 상태를 데이터로 활용합니다.
→ 예: 전자상거래 사이트에서 사용자의 구매/비구매 행동 기록, 공장 설비의 온도/압력 데이터 수집 (→ DG생각: 구글에선 유투브 미디어데이터를 학습자료로 한다네요)
 
웹 다운로드 및 파트너 제공 (Web Download & Partners)
  • 연구나 개발 목적으로 공개된 데이터 세트를 웹에서 다운로드하거나, 
  • 협력 관계에 있는 파트너로부터 데이터를 얻는 방법입니다.
→ 예: 자율주행, 의료 영상 등 공개된 데이터셋 활용

 

 

3. 데이터에 대한 흔한 오해와 잘못된 접근법

데이터의 중요성이 부각되면서 두 가지 흔한 오해가 발생합니다.
오해 1: "일단 데이터를 몇 년간 모으고 나서 AI를 시작하겠다."
  • 문제점: 이는 매우 나쁜 전략입니다. 어떤 데이터가 가치 있는지 모른 채 무작정 모으게 될 수 있습니다.
  • 올바른 접근데이터 수집 초기부터 AI 팀을 참여시켜야 합니다. AI 팀은 어떤 데이터가 필요한지, 어떤 방식으로 수집해야 하는지에 대한 피드백을 주어 IT 인프라 구축의 방향을 올바르게 유도할 수 있습니다.
 
오해 2: "데이터가 아주 많으니, AI 팀이 마법처럼 가치를 만들어낼 것이다."
  • 문제점: 데이터의 양이 가치를 보장하지는 않습니다. 명확한 비즈니스 문제 정의 없이 데이터만으로는 가치를 창출하기 어렵습니다.
  • 올바른 접근: "어떤 문제를 풀고 싶은가?"를 먼저 정의하고, 그에 필요한 가치 있는 데이터가 무엇인지 AI 팀과 함께 논의해야 합니다.

 

 

4. 데이터의 현실: 품질 문제와 종류

현실의 데이터는 완벽하지 않으며, 이를 이해하고 다루는 것이 중요합니다.
"쓰레기가 들어가면, 쓰레기가 나온다 (Garbage in, Garbage out)"
  • 의미데이터의 품질은 AI 모델의 성능을 결정합니다. 데이터가 지저분하면 AI는 잘못된 내용을 학습하게 됩니다.
  • 문제 유형: 잘못된 라벨(ex. 주택 가격이 1달러), 누락된 값(결측치) 등. AI 팀은 이러한 데이터를 '정리(cleaning)'하는 데 많은 시간을 씁니다. (→ DG생각: 일부러 계획단계에서 잘못된 데이터를 학습시켜 인위적으로 가짜정보를 생성할 수 도 있겠네요)
 
데이터의 종류
  • 정형 데이터 (Structured Data): 엑셀 시트처럼 행과 열로 명확하게 구조화된 데이터입니다. (예: 고객 정보, 판매 기록)
  • 비 정형 데이터 (Unstructured Data)정해진 형태가 없는 데이터로, 주로 사람이 해석하기 쉬운 형태입니다. (예: 이미지, 오디오, 텍스트)
  • 차이점: 두 데이터 유형을 처리하는 AI 기술은 서로 다릅니다. 지도 학습은 양쪽 모두에 효과적일 수 있으며, 최근 생성형 AI는 주로 비 정형 데이터를 다루는 데 큰 발전을 보이고 있습니다.


※본 요약은 ‘공정 이용(fair use)’사용 목적으로, 모든 내용은 Stanford University 의 Coursera강의 ‘모두를 위한 AI’를 수강하며 작성한 요약이며, 직접적인 강의 내용 복사, 슬라이드 캡쳐등은 저작권에 의하여 엄격히 보호됩니다. - 앤드류 응(Andrew Ng)의 강의 by Coursera Plus - "Learning Notes and Summaries by Digitalian”