A A
[Data Analysis] λ°μ΄ν„°μ˜ ν™œμš© 및 κ΅¬ν˜„

λ°μ΄ν„°μ˜ ν˜•νƒœ

λ°μ΄ν„°λŠ” λ¬΄μ—‡μΌκΉŒμš”? λ°μ΄ν„°λŠ” μ˜μ‚¬κ²°μ • 및 뢄석을 μœ„ν•œ μ›μžμž¬ μž…λ‹ˆλ‹€.
  • λ˜ν•œ μ •λ³΄μ˜ λ‹¨μœ„λ‘œ, λ‹€μ–‘ν•œ ν˜•νƒœλ‘œ μ‘΄μž¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • μ›μ‹œ 데이터(raw data)λŠ” 직접 μˆ˜μ§‘λœ μ •λ³΄λ‘œ, 아직 κ°€κ³΅λ˜μ§€ μ•Šμ€ μƒνƒœμž…λ‹ˆλ‹€.
  • λ°μ΄ν„°λŠ” μ˜μ‚¬κ²°μ • 및 뢄석을 μœ„ν•œ μ›μžμž¬λ‘œ, 이λ₯Ό 톡해 톡찰λ ₯(insight)을 μ–»κ³ , λ‹€μ–‘ν•œ 문제λ₯Ό ν•΄κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

λ°μ΄ν„°μ˜ μ€‘μš”μ„±

λ°μ΄ν„°λŠ” ν˜„λŒ€ μ‚¬νšŒμ—μ„œ ν•„μˆ˜μ μΈ μžμ›μœΌλ‘œ 자리작고 μžˆμŠ΅λ‹ˆλ‹€.
  • μ˜μ‚¬κ²°μ • 도ꡬ - 데이터 쀑심 사고
    • κ³Όκ±°μ—λŠ” κ²½ν—˜κ³Ό 직관에 μ˜μ‘΄ν•œ μ˜μ‚¬κ²°μ •μ΄ μ£Όλ₯Ό μ΄λ€˜λ‹€λ©΄, μ˜€λŠ˜λ‚ μ—λŠ” 데이터 쀑심 사고(data-driven thinking)κ°€ μ€‘μš”ν•©λ‹ˆλ‹€.
    • 데이터 쀑심 μ‚¬κ³ λŠ” μ˜μ‚¬κ²°μ • κ³Όμ •μ—μ„œ 객관적이고 과학적인 접근을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. 
  • 빅데이터 μ‹œλŒ€
    • λΉ…λ°μ΄ν„°λŠ” λ§‰λŒ€ν•œ μ–‘μ˜ λ°μ΄ν„°λ‘œ, μ΄λŠ” 기쑴의 데이터 처리 λ°©μ‹μœΌλ‘œλŠ” κ΄€λ¦¬ν•˜κΈ° μ–΄λ €μš΄ μˆ˜μ€€μž…λ‹ˆλ‹€.
    • 빅데이터 뢄석을 톡해 μš°λ¦¬λŠ” 기쑴에 λ°œκ²¬ν•˜μ§€ λͺ»ν–ˆλ˜ νŒ¨ν„΄μ„ μ°Ύκ³ , 예츑 λͺ¨λΈμ„ λ§Œλ“€λ©°, λ‹€μ–‘ν•œ μ‚°μ—… λΆ„μ•Όμ—μ„œ ν˜μ‹ μ„ μ΄λŒμ–΄λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€
  • AI (Artificial Intellignece)
    • AIλŠ” 데이터 μ—†μ΄λŠ” μ‘΄μž¬ν•  수 μ—†μŠ΅λ‹ˆλ‹€.
    • AI λͺ¨λΈμ€ λ°©λŒ€ν•œ μ–‘μ˜ 데이터λ₯Ό ν•™μŠ΅ν•˜μ—¬ νŒ¨ν„΄μ„ μΈμ‹ν•˜κ³ , μ˜ˆμΈ‘μ„ μˆ˜ν–‰ν•˜λ©°, μžλ™ν™”λœ 결정을 내릴 수 μžˆμŠ΅λ‹ˆλ‹€.
    • λ°μ΄ν„°λŠ” AI의 ν•™μŠ΅κ³Όμ •μ—μ„œ ν•„μˆ˜μ μΈ 역할을 ν•˜λ©°, 이λ₯Ό 톡해 μžμœ¨μ£Όν–‰μ°¨, 챗봇, λ§žμΆ€ν˜• μΆ”μ²œ μ‹œμŠ€ν…œ λ“± λ‹€μ–‘ν•œ μ‘μš© λΆ„μ•Όμ—μ„œ AI 기술이 λ°œμ „ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.

λ°μ΄ν„°μ˜ ν˜•νƒœ

μ •ν˜• 데이터

μ •ν˜• 데이터(structured data)λŠ” μΌμ •ν•œ ꡬ쑰λ₯Ό 가진 λ°μ΄ν„°λ‘œ, κ³ μ •λœ μŠ€ν‚€λ§ˆ(schema)에 따라 μ‘°μ§λ©λ‹ˆλ‹€
  • μ΄λŠ” λ°μ΄ν„°λ² μ΄μŠ€ ν…Œμ΄λΈ”κ³Ό 같은 ν˜•νƒœλ‘œ, ν–‰κ³Ό μ—΄λ‘œ κ΅¬μ„±λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.
  1. κ΅¬μ‘°ν™”λœ ν˜•μ‹
    • μ •ν˜• λ°μ΄ν„°λŠ” ν‘œ ν˜•μ‹μœΌλ‘œ κ΅¬μ„±λ˜μ–΄ μžˆμ–΄ 데이터 ν•­λͺ© κ°„μ˜ 관계λ₯Ό λͺ…ν™•νžˆ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
    • μ΄λŸ¬ν•œ κ΅¬μ‘°ν™”λœ ν˜•μ‹ 덕뢄에 λ°μ΄ν„°μ˜ 의미λ₯Ό μ‰½κ²Œ 이해할 수 μžˆμŠ΅λ‹ˆλ‹€.
  2. κ³ μ •λœ μŠ€ν‚€λ§ˆ
    • κ³ μ •λœ μŠ€ν‚€λ§ˆλŠ” λ°μ΄ν„°μ˜ 일관성을 보μž₯ν•©λ‹ˆλ‹€.
    • 데이터가 μ €μž₯되기 전에 미리 μ •μ˜λœ μŠ€ν‚€λ§ˆμ— 따라 κ΅¬μ‘°ν™”λ˜λ―€λ‘œ, λ°μ΄ν„°μ˜ 무결성(integrity)이 보μž₯λ©λ‹ˆλ‹€.
  3. 무결성
    • μ •ν˜• λ°μ΄ν„°λŠ” κ³ μ •λœ μŠ€ν‚€λ§ˆ 덕뢄에 λ°μ΄ν„°μ˜ μ •ν™•μ„±κ³Ό 일관성을 μœ μ§€ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
    • λ°μ΄ν„°μ˜ 무결성은 데이터 뢄석과 μ˜μ‚¬κ²°μ •μ˜ 신뒰성을 λ†’μ΄λŠ” μ€‘μš”ν•œ μš”μ†Œμž…λ‹ˆλ‹€.
  4. μ €μž₯κ³Ό 관리가 효율적
    • μ •ν˜• λ°μ΄ν„°λŠ” κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€ 관리 μ‹œμŠ€ν…œ(RDBMS)μ—μ„œ 효율적으둜 μ €μž₯되고 κ΄€λ¦¬λ©λ‹ˆλ‹€.
    • RDBMSλŠ” λ°μ΄ν„°μ˜ μ €μž₯, 검색, μ—…λ°μ΄νŠΈ 등을 효과적으둜 μˆ˜ν–‰ν•  수 μžˆλŠ” λ‹€μ–‘ν•œ κΈ°λŠ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.
  5.  λ°μ΄ν„° 뢄석에 용이
    • μ •ν˜• λ°μ΄ν„°λŠ” μΌμ •ν•œ ꡬ쑰λ₯Ό 가지고 μžˆμ–΄, SQLκ³Ό 같은 쿼리 μ–Έμ–΄λ₯Ό 톡해 μ‰½κ²Œ μ ‘κ·Όν•˜κ³  뢄석할 수 μžˆμŠ΅λ‹ˆλ‹€.
    • 이λ₯Ό 톡해 λ°μ΄ν„°μ˜ νŒ¨ν„΄μ„ νŒŒμ•…ν•˜κ³ , μœ μš©ν•œ 정보λ₯Ό μΆ”μΆœν•˜λŠ” 데 μš©μ΄ν•©λ‹ˆλ‹€.
  6. μœ μ—°μ„±μ΄ λΆ€μ‘±
    • κ³ μ •λœ μŠ€ν‚€λ§ˆλ‘œ 인해 λ°μ΄ν„°μ˜ ꡬ쑰λ₯Ό λ³€κ²½ν•˜λŠ” 것이 μ–΄λ ΅μŠ΅λ‹ˆλ‹€.
    • μƒˆλ‘œμš΄ μœ ν˜•μ˜ 데이터λ₯Ό μΆ”κ°€ν•˜κ±°λ‚˜ μŠ€ν‚€λ§ˆλ₯Ό λ³€κ²½ν•΄μ•Ό ν•  경우, μ‹œμŠ€ν…œ 전체에 영ν–₯을 λ―ΈμΉ  수 μžˆμŠ΅λ‹ˆλ‹€.
  7. κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€ 관리 μ‹œμŠ€ν…œ(RDBMS)
    • RDBMSλŠ” μ •ν˜• 데이터λ₯Ό 효율적으둜 κ΄€λ¦¬ν•˜κΈ° μœ„ν•΄ μ„€κ³„λœ μ‹œμŠ€ν…œμž…λ‹ˆλ‹€.
    • λŒ€ν‘œμ μΈ RDBMSλ‘œλŠ” MySQL, PostgreSQL, Oracle Database 등이 μžˆμŠ΅λ‹ˆλ‹€. 이듀 μ‹œμŠ€ν…œμ€ λ°μ΄ν„°μ˜ 무결성을 보μž₯ν•˜κ³ , 데이터 관리와 뢄석을 μš©μ΄ν•˜κ²Œ ν•©λ‹ˆλ‹€.

 

 

λΉ„μ •ν˜• 데이터

λΉ„μ •ν˜• 데이터(unstructured data)λŠ” κ³ μ •λœ μŠ€ν‚€λ§ˆλ‚˜ ꡬ쑰가 μ—†λŠ” λ°μ΄ν„°λ‘œ, λ‹€μ–‘ν•œ ν˜•νƒœμ™€ μœ ν˜•μœΌλ‘œ μ‘΄μž¬ν•©λ‹ˆλ‹€.
  • μ΄λŠ” ν…μŠ€νŠΈ, 이미지, λ™μ˜μƒ λ“± λ‹€μ–‘ν•œ ν˜•μ‹μ„ ν¬ν•¨ν•˜λ©°, ν˜„λŒ€ 데이터 ν™˜κ²½μ—μ„œ 점점 더 μ€‘μš”ν•΄μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€.
  1. ν…μŠ€νŠΈ, 이미지, λ™μ˜μƒ λ‹€μ–‘ν•œ 데이터 μœ ν˜•
    • λΉ„μ •ν˜• λ°μ΄ν„°λŠ” ν…μŠ€νŠΈ λ¬Έμ„œ, 이메일, μ†Œμ…œ λ―Έλ””μ–΄ κ²Œμ‹œλ¬Ό, 이미지, λ™μ˜μƒ λ“± 맀우 λ‹€μ–‘ν•œ ν˜•νƒœλ‘œ μ‘΄μž¬ν•©λ‹ˆλ‹€.
    • μ΄λŸ¬ν•œ 데이터 μœ ν˜•λ“€μ€ μ‚¬λžŒλ“€μ˜ 행동과 μ„ ν˜Έλ„λ₯Ό μ΄ν•΄ν•˜λŠ” 데 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.
  2. κ³ μ •λœ μŠ€ν‚€λ§ˆ, ꡬ쑰가 μ—†μŒ
    • λΉ„μ •ν˜• λ°μ΄ν„°λŠ” μ •ν˜• 데이터와 달리 κ³ μ •λœ μŠ€ν‚€λ§ˆλ‚˜ ꡬ쑰가 μ—†μŠ΅λ‹ˆλ‹€.
    • μ΄λŠ” 데이터λ₯Ό μ €μž₯ν•˜κ³  κ΄€λ¦¬ν•˜λŠ” 데 μžˆμ–΄ μœ μ—°μ„±μ„ μ œκ³΅ν•˜μ§€λ§Œ, λ™μ‹œμ— 데이터λ₯Ό μ •λ¦¬ν•˜κ³  λΆ„μ„ν•˜λŠ” 데 어렀움을 μ€λ‹ˆλ‹€.
  3. λŒ€μš©λŸ‰
    • λΉ„μ •ν˜• λ°μ΄ν„°λŠ” λŒ€λŸ‰μœΌλ‘œ μƒμ„±λ˜κ³  μ €μž₯λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ†Œμ…œ λ―Έλ””μ–΄μ—μ„œ 맀일 수백만 건의 κ²Œμ‹œλ¬Όμ΄ μƒμ„±λ˜κ³ , λΉ„λ””μ˜€ 슀트리밍 ν”Œλž«νΌμ—μ„œλŠ” λ°©λŒ€ν•œ μ–‘μ˜ λ™μ˜μƒ 데이터가 μ—…λ‘œλ“œλ©λ‹ˆλ‹€.
    • μ΄λŸ¬ν•œ λŒ€μš©λŸ‰ λ°μ΄ν„°λŠ” μƒˆλ‘œμš΄ μ €μž₯ 및 뢄석 κΈ°μˆ μ„ ν•„μš”λ‘œ ν•©λ‹ˆλ‹€.
  4. ν’λΆ€ν•œ μ •λ³΄λŸ‰
    • λΉ„μ •ν˜• λ°μ΄ν„°λŠ” 맀우 ν’λΆ€ν•œ 정보λ₯Ό λ‹΄κ³  μžˆμŠ΅λ‹ˆλ‹€.
    • ν…μŠ€νŠΈ λ°μ΄ν„°λŠ” 감정 뢄석과 주제 μΆ”μΆœμ— μœ μš©ν•˜λ©°, 이미지와 λ™μ˜μƒ λ°μ΄ν„°λŠ” 객체 인식과 행동 뢄석에 μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
    • μ΄λŸ¬ν•œ λ°μ΄ν„°λŠ” 보닀 깊이 μžˆλŠ” 톡찰을 μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  5. μ €μž₯, 뢄석이 어렀움
    • λΉ„μ •ν˜• λ°μ΄ν„°λŠ” κ·Έ ꡬ쑰적 νŠΉμ„±μœΌλ‘œ 인해 μ €μž₯κ³Ό 뢄석이 μ–΄λ ΅μŠ΅λ‹ˆλ‹€.
    • 전톡적인 RDBMSλ‘œλŠ” λΉ„μ •ν˜• 데이터λ₯Ό 효과적으둜 μ²˜λ¦¬ν•˜κΈ° μ–΄λ €μš°λ©°, 이λ₯Ό μœ„ν•΄ νŠΉμˆ˜ν•œ μ €μž₯ 및 뢄석 도ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
  6. 일관성 μ—†λŠ” ν’ˆμ§ˆ
    • λΉ„μ •ν˜• λ°μ΄ν„°λŠ” λ‹€μ–‘ν•œ μΆœμ²˜μ—μ„œ μƒμ„±λ˜λ―€λ‘œ, λ°μ΄ν„°μ˜ ν’ˆμ§ˆμ΄ μΌκ΄€λ˜μ§€ μ•Šμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
    • μ΄λŠ” 데이터 μ •μ œ(cleaning)와 μ „μ²˜λ¦¬(preprocessing)의 ν•„μš”μ„±μ„ μ¦κ°€μ‹œν‚΅λ‹ˆλ‹€.
  7. NoSQL
    • λΉ„μ •ν˜• 데이터λ₯Ό κ΄€λ¦¬ν•˜κΈ° μœ„ν•΄ NoSQL λ°μ΄ν„°λ² μ΄μŠ€κ°€ μ‚¬μš©λ©λ‹ˆλ‹€.
    • NoSQL λ°μ΄ν„°λ² μ΄μŠ€λŠ” μŠ€ν‚€λ§ˆκ°€ μ—†λŠ” 데이터λ₯Ό 효율적으둜 μ €μž₯ν•˜κ³  검색할 수 μžˆλ„λ‘ μ„€κ³„λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
    • λŒ€ν‘œμ μΈ NoSQL λ°μ΄ν„°λ² μ΄μŠ€λ‘œλŠ” MongoDB, Cassandra, CouchDB 등이 μžˆμŠ΅λ‹ˆλ‹€.
    • 이듀 μ‹œμŠ€ν…œμ€ λΉ„μ •ν˜• λ°μ΄ν„°μ˜ μœ μ—°ν•œ μ €μž₯κ³Ό λΉ λ₯Έ 검색을 μ§€μ›ν•©λ‹ˆλ‹€.

 

 

λ°˜μ •ν˜• 데이터

λ°˜μ •ν˜• 데이터(semi-structured data)λŠ” μΌμ •ν•œ ꡬ쑰λ₯Ό κ°–μ§€λ§Œ, ν˜•μ‹μ΄ κ³ μ •λ˜μ§€ μ•Šμ€ 데이터λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.
  • μ΄λŸ¬ν•œ λ°μ΄ν„°λŠ” κ³ μ •λœ μŠ€ν‚€λ§ˆκ°€ μ—†μ§€λ§Œ, νƒœκ·Έλ‚˜ λ§ˆν¬μ—… μ–Έμ–΄λ₯Ό 톡해 데이터λ₯Ό μ„€λͺ…ν•˜λŠ” ꡬ쑰λ₯Ό ν¬ν•¨ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.
  • μ΄λŠ” μ •ν˜• 데이터와 λΉ„μ •ν˜• λ°μ΄ν„°μ˜ 쀑간 ν˜•νƒœλ‘œ, 두 μœ ν˜•μ˜ μž₯단점을 λͺ¨λ‘ 가지고 μžˆμŠ΅λ‹ˆλ‹€.
  1. μΌμ •ν•œ ꡬ쑰λ₯Ό κ°–μ§€λ§Œ ν˜•μ‹μ΄ κ³ μ •λ˜μ§€ μ•Šμ€ 데이터
    • λ°˜μ •ν˜• λ°μ΄ν„°λŠ” XML, JSON, YAML λ“±μ˜ ν˜•μ‹μœΌλ‘œ μ €μž₯λ©λ‹ˆλ‹€. μ΄λŸ¬ν•œ ν˜•μ‹μ€ 데이터 ν•­λͺ© κ°„μ˜ 관계λ₯Ό λͺ…μ‹œμ μœΌλ‘œ ν‘œν˜„ν•˜λ©΄μ„œλ„ κ³ μ •λœ μŠ€ν‚€λ§ˆλ₯Ό μš”κ΅¬ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. μ΄λŠ” λ°μ΄ν„°μ˜ μœ μ—°μ„±κ³Ό ν™•μž₯성을 λ†’μž…λ‹ˆλ‹€.
  2. μžκΈ°μ„€λͺ…적
    • λ°˜μ •ν˜• λ°μ΄ν„°λŠ” μžκΈ°μ„€λͺ…적(self-describing)μž…λ‹ˆλ‹€. 즉, 데이터 μžμ²΄κ°€ ꡬ쑰와 의미λ₯Ό ν¬ν•¨ν•˜κ³  μžˆμ–΄ 좔가적인 메타데이터 없이도 데이터λ₯Ό 이해할 수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, JSON νŒŒμΌμ€ 데이터 ν•­λͺ©κ³Ό κ·Έ 값을 ν‚€-κ°’ 쌍으둜 λͺ…ν™•νžˆ μ •μ˜ν•©λ‹ˆλ‹€.
  3. μ •ν˜• 데이터와 λΉ„μ •ν˜• λ°μ΄ν„°μ˜ μž₯단점 곡유
    • λ°˜μ •ν˜• λ°μ΄ν„°λŠ” μ •ν˜• 데이터와 λΉ„μ •ν˜• λ°μ΄ν„°μ˜ μž₯단점을 λͺ¨λ‘ κ³΅μœ ν•©λ‹ˆλ‹€. μ •ν˜• λ°μ΄ν„°μ˜ μž₯점인 데이터 무결성과 관리 μš©μ΄μ„±μ„ μ–΄λŠ 정도 μœ μ§€ν•˜λ©΄μ„œλ„, λΉ„μ •ν˜• λ°μ΄ν„°μ˜ μœ μ—°μ„±κ³Ό ν™•μž₯성을 μ œκ³΅ν•©λ‹ˆλ‹€. μ΄λŠ” λ‹€μ–‘ν•œ 데이터 μœ ν˜•μ„ 효율적으둜 μ²˜λ¦¬ν•˜κ³  뢄석할 수 있게 ν•©λ‹ˆλ‹€.
  4. JSON, XML
    • λ°˜μ •ν˜• λ°μ΄ν„°μ˜ λŒ€ν‘œμ μΈ μ˜ˆλ‘œλŠ” JSON(JavaScript Object Notation)κ³Ό XML(Extensible Markup Language)이 μžˆμŠ΅λ‹ˆλ‹€.
      • JSON: κ²½λŸ‰ 데이터 κ΅ν™˜ ν˜•μ‹μœΌλ‘œ, μ‚¬λžŒκ³Ό 기계 λͺ¨λ‘ 읽고 μ“°κΈ° μ‰¬μš΄ ν…μŠ€νŠΈ ν˜•μ‹μž…λ‹ˆλ‹€. JSON은 μ›Ή μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ—μ„œ 데이터 전솑에 많이 μ‚¬μš©λ©λ‹ˆλ‹€.
      • XML: λ§ˆν¬μ—… μ–Έμ–΄λ‘œ, λ°μ΄ν„°μ˜ ꡬ쑰λ₯Ό μ •μ˜ν•˜κ³  μ„€λͺ…ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. XML은 λ¬Έμ„œ μ€‘μ‹¬μ˜ 데이터 κ΅ν™˜μ— 주둜 μ‚¬μš©λ©λ‹ˆλ‹€.
  • JSON 데이터 μ˜ˆμ‹œ
{
    "ID_No": 1,
    "Name": "James",
    "Email": "James@korea.com",
    "Age": 21
},
{
    ID_No": 2,
    "Name": "Jack",
    "Email": "Jack@korea.com",
    "Age": 23
}

데이터와 μΈμ‚¬μ΄νŠΈ

데이터 μΈμ‚¬μ΄νŠΈλž€? 데이터 뢄석을 톡해 λ„μΆœλœ μœ μš©ν•œ ν†΅μ°°μ΄λ‚˜ 정보λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.
  • μ΄λŠ” λ‹¨μˆœνžˆ 데이터λ₯Ό ν•΄μ„ν•œ 결과값이 μ•„λ‹ˆλΌ, 의미 μžˆλŠ” 정보λ₯Ό ν¬ν•¨ν•˜μ—¬ μ˜μ‚¬κ²°μ •κ³Ό 문제 해결에 μ§μ ‘μ μœΌλ‘œ κΈ°μ—¬ν•  수 μžˆλŠ” 데이터λ₯Ό λ§ν•©λ‹ˆλ‹€.

 

데이터 μΈμ‚¬μ΄νŠΈκ°€ μ€‘μš”ν•œ 이유?

데이터 μΈμ‚¬μ΄νŠΈλŠ” λ‹€μ–‘ν•œ λΆ„μ•Όμ—μ„œ μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€. 특히 데이터 뢄석가와 AI κ°œλ°œμžμ—κ²ŒλŠ” ν•„μˆ˜μ μΈ μš”μ†Œμž…λ‹ˆλ‹€.
  • 데이터 기반 μ˜μ‚¬κ²°μ •: 데이터 λΆ„μ„κ°€λŠ” 데이터λ₯Ό λΆ„μ„ν•˜μ—¬ μ‹ λ’°μ„± 높은 μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•¨μœΌλ‘œμ¨, 쑰직이 데이터 기반 μ˜μ‚¬κ²°μ •μ„ 내릴 수 μžˆλ„λ‘ λ•μŠ΅λ‹ˆλ‹€. μ΄λŠ” μ§κ΄€μ΄λ‚˜ κ²½ν—˜μ— μ˜μ‘΄ν•œ μ˜μ‚¬κ²°μ •λ³΄λ‹€ 더 객관적이고 μ •ν™•ν•©λ‹ˆλ‹€.
  • λͺ¨λΈ μ„±λŠ₯ κ°œμ„  및 데이터 ν’ˆμ§ˆ: AI κ°œλ°œμžλŠ” 데이터 μΈμ‚¬μ΄νŠΈλ₯Ό ν™œμš©ν•˜μ—¬ λͺ¨λΈμ˜ μ„±λŠ₯을 κ°œμ„ ν•˜κ³ , 데이터 ν’ˆμ§ˆμ„ ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 데이터 μΈμ‚¬μ΄νŠΈλ₯Ό 톡해 λͺ¨λΈμ΄ μ˜€μž‘λ™ν•˜λŠ” 이유λ₯Ό νŒŒμ•…ν•˜κ³ , λ°μ΄ν„°μ…‹μ˜ ν’ˆμ§ˆμ„ κ°œμ„ ν•˜λŠ” 데 ν•„μš”ν•œ 쑰치λ₯Ό μ·¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

데이터 뢄석과 AI의 ꢁ극적인 λͺ©ν‘œλŠ” μœ μ˜λ―Έν•œ μΈμ‚¬μ΄νŠΈ λ„μΆœ

데이터 뢄석과 AI의 ꢁ극적인 λͺ©ν‘œλŠ” μœ μ˜λ―Έν•œ μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.
  • λ‹€μ–‘ν•œ μ΄ν•΄κ΄€κ³„μžκ°€ μ΄λŸ¬ν•œ μΈμ‚¬μ΄νŠΈλ₯Ό ν™œμš©ν•˜μ—¬ μ˜μ‚¬κ²°μ •κ³Ό ν˜μ‹ μ„ μ΄λŒμ–΄λ‚΄λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.
  • μ˜μ‚¬κ²°μ •: κ²½μ˜μ§„, λ§ˆμΌ€νŒ… νŒ€, μ œν’ˆ 개발 νŒ€ λ“± λ‹€μ–‘ν•œ λΆ€μ„œμ—μ„œ 데이터 μΈμ‚¬μ΄νŠΈλ₯Ό ν™œμš©ν•˜μ—¬ μ „λž΅μ  μ˜μ‚¬κ²°μ •μ„ 내릴 수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, λ§ˆμΌ€νŒ… 캠페인의 효과λ₯Ό λΆ„μ„ν•˜κ±°λ‚˜, μ‹ μ œν’ˆ μΆœμ‹œ μ „λž΅μ„ μˆ˜λ¦½ν•˜λŠ” 데 데이터 μΈμ‚¬μ΄νŠΈκ°€ 큰 도움이 λ©λ‹ˆλ‹€.
  • ν˜μ‹ : 데이터 μΈμ‚¬μ΄νŠΈλŠ” 쑰직이 μƒˆλ‘œμš΄ 기회λ₯Ό λ°œκ²¬ν•˜κ³ , κΈ°μ‘΄ ν”„λ‘œμ„ΈμŠ€λ₯Ό ν˜μ‹ ν•˜λŠ” 데 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 고객 행동 뢄석을 톡해 μƒˆλ‘œμš΄ μ„œλΉ„μŠ€λ‚˜ μ œν’ˆμ„ κ°œλ°œν•˜κ±°λ‚˜, 운영 νš¨μœ¨μ„±μ„ 높이기 μœ„ν•œ ν”„λ‘œμ„ΈμŠ€ κ°œμ„  아이디어λ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€.

λ°μ΄ν„°μ˜ μˆ˜μ§‘ 방법

λ‚΄λΆ€ 데이터 vs μ™ΈλΆ€ 데이터

λ‚΄λΆ€ 데이터

λ‚΄λΆ€ λ°μ΄ν„°λŠ” 쑰직 λ‚΄λΆ€μ—μ„œ μƒμ„±λ˜κ³  μˆ˜μ§‘λ˜λŠ” λ°μ΄ν„°λ‘œ, 주둜 λ‚΄λΆ€ μ‹œμŠ€ν…œμ—μ„œ μ–»μ–΄μ§‘λ‹ˆλ‹€. μ£Όμš” μ˜ˆμ‹œλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.
  • μ˜μ—… 데이터: 판맀 기둝, μ˜μ—… ν™œλ™ λ³΄κ³ μ„œ, 고객 μƒν˜Έμž‘μš© 기둝 λ“± μ˜μ—… ν™œλ™κ³Ό κ΄€λ ¨λœ λ°μ΄ν„°μž…λ‹ˆλ‹€.
  • 고객 데이터: 고객의 인적 정보, ꡬ맀 이λ ₯, ν”Όλ“œλ°±, 고객 μ„œλΉ„μŠ€ 기둝 등을 ν¬ν•¨ν•©λ‹ˆλ‹€. 
  • νŠΈλžœμž­μ…˜ 데이터: ꡬ맀, ν™˜λΆˆ, 결제 λ“±μ˜ 금육 거래 기둝을 ν¬ν•¨ν•©λ‹ˆλ‹€.
  • μ†ŒμŠ€μ½”λ“œ: μ†Œν”„νŠΈμ›¨μ–΄ 개발 κ³Όμ •μ—μ„œ μƒμ„±λœ μ½”λ“œμ™€ κ΄€λ ¨ λ°μ΄ν„°μž…λ‹ˆλ‹€. 
  • 사원정보: μ§μ›μ˜ 인사 기둝, κΈ‰μ—¬ 정보, μ„±κ³Ό 평가 데이터 등을 ν¬ν•¨ν•©λ‹ˆλ‹€. 

 

μ™ΈλΆ€ 데이터

μ™ΈλΆ€ λ°μ΄ν„°λŠ” 쑰직 μ™ΈλΆ€μ—μ„œ μƒμ„±λ˜κ³  μˆ˜μ§‘λ˜λŠ” λ°μ΄ν„°λ‘œ, 곡곡 κΈ°κ΄€, μ‹œμž₯ 쑰사 κΈ°κ΄€, μ™ΈλΆ€ μ‹œμŠ€ν…œ λ“± λ‹€μ–‘ν•œ μΆœμ²˜μ—μ„œ μ–»μ–΄μ§‘λ‹ˆλ‹€.
μ£Όμš” μ˜ˆμ‹œλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.
  • 곡곡 데이터: μ •λΆ€λ‚˜ 곡곡 κΈ°κ΄€μ—μ„œ μ œκ³΅ν•˜λŠ” λ°μ΄ν„°λ‘œ, 인ꡬ 톡계, 경제 μ§€ν‘œ, ν™˜κ²½ 데이터 등이 ν¬ν•¨λ©λ‹ˆλ‹€.
  • μ‹œμž₯ 데이터: μ‹œμž₯ 쑰사 κΈ°κ΄€μ΄λ‚˜ μ—°κ΅¬μ†Œμ—μ„œ μˆ˜μ§‘ν•œ λ°μ΄ν„°λ‘œ, κ²½μŸμ‚¬ 뢄석, μ†ŒλΉ„μž 행동 연ꡬ, μ‚°μ—… νŠΈλ Œλ“œ 등을 ν¬ν•¨ν•©λ‹ˆλ‹€.
  • 쑰사 데이터: μ„€λ¬Έ 쑰사, 인터뷰, ν‘œλ³Έ 쑰사 등을 톡해 μˆ˜μ§‘ν•œ λ°μ΄ν„°μž…λ‹ˆλ‹€.

 

OpenAPI

λˆ„κ΅¬λ‚˜ μ ‘κ·Όν•  수 μžˆλ„λ‘ 개방된 API(Application Programming Interface)λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.
  • νŠΉμ • κΈ°λŠ₯μ΄λ‚˜ 데이터λ₯Ό μ™ΈλΆ€ κ°œλ°œμžμ™€ κ³΅μœ ν•˜μ—¬, λ‹€μ–‘ν•œ μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ΄λ‚˜ μ„œλΉ„μŠ€λ₯Ό κ°œλ°œν•  수 μžˆλ„λ‘ λ•μŠ΅λ‹ˆλ‹€. μ£Όμš” νŠΉμ§•μ€ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.
  • κ΅¬μ‘°ν™”λœ 데이터 제곡: OpenAPIλŠ” κ΅¬μ‘°ν™”λœ 데이터λ₯Ό μ œκ³΅ν•˜μ—¬, κ°œλ°œμžκ°€ 데이터λ₯Ό μ‰½κ²Œ μ ‘κ·Όν•˜κ³  μ‚¬μš©ν•  수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€. 일반적으둜 JSON, XML λ“±μ˜ ν˜•μ‹μ„ μ‚¬μš©ν•©λ‹ˆλ‹€.
  • 인증 ν•„μš” (API ν‚€): λŒ€λΆ€λΆ„μ˜ OpenAPIλŠ” λ³΄μ•ˆκ³Ό μ‚¬μš© 좔적을 μœ„ν•΄ API ν‚€λ₯Ό μš”κ΅¬ν•©λ‹ˆλ‹€. API ν‚€λŠ” μ‚¬μš©μžκ°€ API에 μ ‘κ·Όν•  수 μžˆλŠ” κΆŒν•œμ„ ν™•μΈν•˜κ³ , μ‚¬μš©λŸ‰μ„ λͺ¨λ‹ˆν„°λ§ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€.

 

Open Data

Open DataλŠ” λˆ„κ΅¬λ‚˜ μ ‘κ·Όν•  수 μžˆλ„λ‘ 곡개된 데이터λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.

  • μ •λΆ€, κΈ°κ΄€, 단체 λ“±μ—μ„œ μ œκ³΅ν•˜λ©°, 곡곡의 이읡을 μœ„ν•΄ 자유둭게 μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ£Όμš” νŠΉμ§•μ€ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€:
  • λˆ„κ΅¬λ‚˜ μ ‘κ·Όν•  수 μžˆλ„λ‘ 곡개된 데이터: Open DataλŠ” λͺ¨λ“  μ‚¬λžŒμ΄ 자유둭게 μ ‘κ·Όν•˜κ³  μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λ°μ΄ν„°μ˜ 투λͺ…성을 높이고, λ‹€μ–‘ν•œ 연ꡬ와 뢄석에 ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
  • μ •λΆ€, κΈ°κ΄€, 단체 λ“±μ—μ„œ 제곡: Open DataλŠ” 주둜 μ •λΆ€ κΈ°κ΄€, 곡곡 단체, λΉ„μ˜λ¦¬ 쑰직 등이 μ œκ³΅ν•˜λ©°, 곡곡 데이터 포털 등을 톡해 μ‰½κ²Œ μ ‘κ·Όν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ°μ΄ν„°λŠ” μ •μ±… 뢄석, 연ꡬ, μ‚°μ—… λ°œμ „ 등에 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.

 

크둀링 (Crawling)

크둀링(crawling)은 μžλ™ν™”λœ 슀크립트λ₯Ό μ‚¬μš©ν•˜μ—¬ μ›Ή νŽ˜μ΄μ§€λ₯Ό νƒμƒ‰ν•˜κ³  데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€.
  • μ΄λŠ” μ›Ή μ‚¬μ΄νŠΈ 전체 λ˜λŠ” λ‹€μˆ˜μ˜ νŽ˜μ΄μ§€λ₯Ό νƒμƒ‰ν•˜λ©΄μ„œ 데이터λ₯Ό μΆ”μΆœν•˜λŠ” κ³Όμ •μœΌλ‘œ, 검색 μ—”μ§„μ˜ ν¬λ‘€λŸ¬μ™€ μœ μ‚¬ν•©λ‹ˆλ‹€.
  • μžλ™ν™”λœ 슀크립트: ν¬λ‘€λŸ¬λŠ” νŠΉμ • κ·œμΉ™μ— 따라 μ›Ή νŽ˜μ΄μ§€λ₯Ό λ°©λ¬Έν•˜κ³ , ν•΄λ‹Ή νŽ˜μ΄μ§€μ˜ μ½˜ν…μΈ λ₯Ό μˆ˜μ§‘ν•˜λŠ” μžλ™ν™”λœ μŠ€ν¬λ¦½νŠΈμž…λ‹ˆλ‹€.
  • 전체 μ‚¬μ΄νŠΈ λ˜λŠ” λ‹€μˆ˜μ˜ νŽ˜μ΄μ§€ 탐색: 크둀링은 일반적으둜 전체 μ›Ή μ‚¬μ΄νŠΈλ₯Ό νƒμƒ‰ν•˜κ±°λ‚˜, λ‹€μˆ˜μ˜ νŽ˜μ΄μ§€λ₯Ό 순차적으둜 λ°©λ¬Έν•˜μ—¬ 데이터λ₯Ό μˆ˜μ§‘ν•©λ‹ˆλ‹€.
  • 검색 μ—”μ§„μ˜ ν¬λ‘€λŸ¬μ™€ μœ μ‚¬: 검색 엔진 ν¬λ‘€λŸ¬λŠ” μ›Ή νŽ˜μ΄μ§€λ₯Ό μΈλ±μ‹±ν•˜μ—¬ 검색 κ²°κ³Όλ₯Ό μ œκ³΅ν•˜λŠ”λ°, 이와 μœ μ‚¬ν•œ λ°©μ‹μœΌλ‘œ 데이터λ₯Ό μˆ˜μ§‘ν•©λ‹ˆλ‹€.

 

μŠ€ν¬λž˜ν•‘ (Scrapping)

μŠ€ν¬λž˜ν•‘(scraping)은 νŠΉμ • μ›Ή νŽ˜μ΄μ§€μ—μ„œ ν•„μš”ν•œ 데이터λ₯Ό μΆ”μΆœν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€. μ΄λŠ” μ›Ή 크둀링의 ν•˜μœ„ μ§‘ν•©μœΌλ‘œ, νŠΉμ • λ°μ΄ν„°λ§Œ μˆ˜μ§‘ν•˜λŠ” 데 μ§‘μ€‘ν•©λ‹ˆλ‹€.
  • νŠΉμ • μ›Ή νŽ˜μ΄μ§€μ—μ„œ ν•„μš”ν•œ 데이터 μΆ”μΆœ: μŠ€ν¬λž˜ν•‘μ€ μ›Ή νŽ˜μ΄μ§€μ˜ νŠΉμ • μš”μ†Œλ‚˜ 정보λ₯Ό μΆ”μΆœν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ œν’ˆ 가격, 리뷰, μ—°λ½μ²˜ 정보 등을 μΆ”μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • μ›Ή 크둀링의 ν•˜μœ„ 집합: μŠ€ν¬λž˜ν•‘μ€ 크둀링의 μΌλΆ€λ‘œμ„œ, ν¬λ‘€λŸ¬κ°€ νƒμƒ‰ν•œ μ›Ή νŽ˜μ΄μ§€μ—μ„œ νŠΉμ • 데이터λ₯Ό μΆ”μΆœν•˜λŠ” μž‘μ—…μ„ μ˜λ―Έν•©λ‹ˆλ‹€.