λ°μν
λ°μ΄ν°μ νν
λ°μ΄ν°λ 무μμΌκΉμ? λ°μ΄ν°λ μμ¬κ²°μ λ° λΆμμ μν μμμ¬ μ λλ€.
- λν μ 보μ λ¨μλ‘, λ€μν ννλ‘ μ‘΄μ¬ν μ μμ΅λλ€.
- μμ λ°μ΄ν°(raw data)λ μ§μ μμ§λ μ 보λ‘, μμ§ κ°κ³΅λμ§ μμ μνμ λλ€.
- λ°μ΄ν°λ μμ¬κ²°μ λ° λΆμμ μν μμμ¬λ‘, μ΄λ₯Ό ν΅ν΄ ν΅μ°°λ ₯(insight)μ μ»κ³ , λ€μν λ¬Έμ λ₯Ό ν΄κ²°ν μ μμ΅λλ€.
λ°μ΄ν°μ μ€μμ±
λ°μ΄ν°λ νλ μ¬νμμ νμμ μΈ μμμΌλ‘ μ리μ‘κ³ μμ΅λλ€.
- μμ¬κ²°μ λꡬ - λ°μ΄ν° μ€μ¬ μ¬κ³
- κ³Όκ±°μλ κ²½νκ³Ό μ§κ΄μ μμ‘΄ν μμ¬κ²°μ μ΄ μ£Όλ₯Ό μ΄λ€λ€λ©΄, μ€λλ μλ λ°μ΄ν° μ€μ¬ μ¬κ³ (data-driven thinking)κ° μ€μν©λλ€.
- λ°μ΄ν° μ€μ¬ μ¬κ³ λ μμ¬κ²°μ κ³Όμ μμ κ°κ΄μ μ΄κ³ κ³Όνμ μΈ μ κ·Όμ κ°λ₯νκ² ν©λλ€.
- λΉ
λ°μ΄ν° μλ
- λΉ λ°μ΄ν°λ λ§λν μμ λ°μ΄ν°λ‘, μ΄λ κΈ°μ‘΄μ λ°μ΄ν° μ²λ¦¬ λ°©μμΌλ‘λ κ΄λ¦¬νκΈ° μ΄λ €μ΄ μμ€μ λλ€.
- λΉ λ°μ΄ν° λΆμμ ν΅ν΄ μ°λ¦¬λ κΈ°μ‘΄μ λ°κ²¬νμ§ λͺ»νλ ν¨ν΄μ μ°Ύκ³ , μμΈ‘ λͺ¨λΈμ λ§λ€λ©°, λ€μν μ°μ λΆμΌμμ νμ μ μ΄λμ΄λΌ μ μμ΅λλ€
- AI (Artificial Intellignece)
- AIλ λ°μ΄ν° μμ΄λ μ‘΄μ¬ν μ μμ΅λλ€.
- AI λͺ¨λΈμ λ°©λν μμ λ°μ΄ν°λ₯Ό νμ΅νμ¬ ν¨ν΄μ μΈμνκ³ , μμΈ‘μ μννλ©°, μλνλ κ²°μ μ λ΄λ¦΄ μ μμ΅λλ€.
- λ°μ΄ν°λ AIμ νμ΅κ³Όμ μμ νμμ μΈ μν μ νλ©°, μ΄λ₯Ό ν΅ν΄ μμ¨μ£Όνμ°¨, μ±λ΄, λ§μΆ€ν μΆμ² μμ€ν λ± λ€μν μμ© λΆμΌμμ AI κΈ°μ μ΄ λ°μ νκ³ μμ΅λλ€.
λ°μ΄ν°μ νν
μ ν λ°μ΄ν°
μ ν λ°μ΄ν°(structured data)λ μΌμ ν ꡬ쑰λ₯Ό κ°μ§ λ°μ΄ν°λ‘, κ³ μ λ μ€ν€λ§(schema)μ λ°λΌ μ‘°μ§λ©λλ€
- μ΄λ λ°μ΄ν°λ² μ΄μ€ ν μ΄λΈκ³Ό κ°μ ννλ‘, νκ³Ό μ΄λ‘ ꡬμ±λμ΄ μμ΅λλ€.
- ꡬ쑰νλ νμ
- μ ν λ°μ΄ν°λ ν νμμΌλ‘ ꡬμ±λμ΄ μμ΄ λ°μ΄ν° νλͺ© κ°μ κ΄κ³λ₯Ό λͺ νν ν μ μμ΅λλ€.
- μ΄λ¬ν ꡬ쑰νλ νμ λλΆμ λ°μ΄ν°μ μλ―Έλ₯Ό μ½κ² μ΄ν΄ν μ μμ΅λλ€.
- κ³ μ λ μ€ν€λ§
- κ³ μ λ μ€ν€λ§λ λ°μ΄ν°μ μΌκ΄μ±μ 보μ₯ν©λλ€.
- λ°μ΄ν°κ° μ μ₯λκΈ° μ μ 미리 μ μλ μ€ν€λ§μ λ°λΌ ꡬ쑰νλλ―λ‘, λ°μ΄ν°μ 무결μ±(integrity)μ΄ λ³΄μ₯λ©λλ€.
- 무결μ±
- μ ν λ°μ΄ν°λ κ³ μ λ μ€ν€λ§ λλΆμ λ°μ΄ν°μ μ νμ±κ³Ό μΌκ΄μ±μ μ μ§ν μ μμ΅λλ€.
- λ°μ΄ν°μ 무결μ±μ λ°μ΄ν° λΆμκ³Ό μμ¬κ²°μ μ μ λ’°μ±μ λμ΄λ μ€μν μμμ λλ€.
- μ μ₯κ³Ό κ΄λ¦¬κ° ν¨μ¨μ
- μ ν λ°μ΄ν°λ κ΄κ³ν λ°μ΄ν°λ² μ΄μ€ κ΄λ¦¬ μμ€ν (RDBMS)μμ ν¨μ¨μ μΌλ‘ μ μ₯λκ³ κ΄λ¦¬λ©λλ€.
- RDBMSλ λ°μ΄ν°μ μ μ₯, κ²μ, μ λ°μ΄νΈ λ±μ ν¨κ³Όμ μΌλ‘ μνν μ μλ λ€μν κΈ°λ₯μ μ 곡ν©λλ€.
- λ°μ΄ν° λΆμμ μ©μ΄
- μ ν λ°μ΄ν°λ μΌμ ν ꡬ쑰λ₯Ό κ°μ§κ³ μμ΄, SQLκ³Ό κ°μ 쿼리 μΈμ΄λ₯Ό ν΅ν΄ μ½κ² μ κ·Όνκ³ λΆμν μ μμ΅λλ€.
- μ΄λ₯Ό ν΅ν΄ λ°μ΄ν°μ ν¨ν΄μ νμ νκ³ , μ μ©ν μ 보λ₯Ό μΆμΆνλ λ° μ©μ΄ν©λλ€.
- μ μ°μ±μ΄ λΆμ‘±
- κ³ μ λ μ€ν€λ§λ‘ μΈν΄ λ°μ΄ν°μ ꡬ쑰λ₯Ό λ³κ²½νλ κ²μ΄ μ΄λ ΅μ΅λλ€.
- μλ‘μ΄ μ νμ λ°μ΄ν°λ₯Ό μΆκ°νκ±°λ μ€ν€λ§λ₯Ό λ³κ²½ν΄μΌ ν κ²½μ°, μμ€ν μ 체μ μν₯μ λ―ΈμΉ μ μμ΅λλ€.
- κ΄κ³ν λ°μ΄ν°λ² μ΄μ€ κ΄λ¦¬ μμ€ν
(RDBMS)
- RDBMSλ μ ν λ°μ΄ν°λ₯Ό ν¨μ¨μ μΌλ‘ κ΄λ¦¬νκΈ° μν΄ μ€κ³λ μμ€ν μ λλ€.
- λνμ μΈ RDBMSλ‘λ MySQL, PostgreSQL, Oracle Database λ±μ΄ μμ΅λλ€. μ΄λ€ μμ€ν μ λ°μ΄ν°μ 무결μ±μ 보μ₯νκ³ , λ°μ΄ν° κ΄λ¦¬μ λΆμμ μ©μ΄νκ² ν©λλ€.
λΉμ ν λ°μ΄ν°
λΉμ ν λ°μ΄ν°(unstructured data)λ κ³ μ λ μ€ν€λ§λ κ΅¬μ‘°κ° μλ λ°μ΄ν°λ‘, λ€μν ννμ μ νμΌλ‘ μ‘΄μ¬ν©λλ€.
- μ΄λ ν μ€νΈ, μ΄λ―Έμ§, λμμ λ± λ€μν νμμ ν¬ν¨νλ©°, νλ λ°μ΄ν° νκ²½μμ μ μ λ μ€μν΄μ§κ³ μμ΅λλ€.
- ν
μ€νΈ, μ΄λ―Έμ§, λμμ λ€μν λ°μ΄ν° μ ν
- λΉμ ν λ°μ΄ν°λ ν μ€νΈ λ¬Έμ, μ΄λ©μΌ, μμ λ―Έλμ΄ κ²μλ¬Ό, μ΄λ―Έμ§, λμμ λ± λ§€μ° λ€μν ννλ‘ μ‘΄μ¬ν©λλ€.
- μ΄λ¬ν λ°μ΄ν° μ νλ€μ μ¬λλ€μ νλκ³Ό μ νΈλλ₯Ό μ΄ν΄νλ λ° μ€μν μν μ ν©λλ€.
- κ³ μ λ μ€ν€λ§, κ΅¬μ‘°κ° μμ
- λΉμ ν λ°μ΄ν°λ μ ν λ°μ΄ν°μ λ¬λ¦¬ κ³ μ λ μ€ν€λ§λ κ΅¬μ‘°κ° μμ΅λλ€.
- μ΄λ λ°μ΄ν°λ₯Ό μ μ₯νκ³ κ΄λ¦¬νλ λ° μμ΄ μ μ°μ±μ μ 곡νμ§λ§, λμμ λ°μ΄ν°λ₯Ό μ 리νκ³ λΆμνλ λ° μ΄λ €μμ μ€λλ€.
- λμ©λ
- λΉμ ν λ°μ΄ν°λ λλμΌλ‘ μμ±λκ³ μ μ₯λ©λλ€. μλ₯Ό λ€μ΄, μμ λ―Έλμ΄μμ λ§€μΌ μλ°±λ§ κ±΄μ κ²μλ¬Όμ΄ μμ±λκ³ , λΉλμ€ μ€νΈλ¦¬λ° νλ«νΌμμλ λ°©λν μμ λμμ λ°μ΄ν°κ° μ λ‘λλ©λλ€.
- μ΄λ¬ν λμ©λ λ°μ΄ν°λ μλ‘μ΄ μ μ₯ λ° λΆμ κΈ°μ μ νμλ‘ ν©λλ€.
- νλΆν μ 보λ
- λΉμ ν λ°μ΄ν°λ λ§€μ° νλΆν μ 보λ₯Ό λ΄κ³ μμ΅λλ€.
- ν μ€νΈ λ°μ΄ν°λ κ°μ λΆμκ³Ό μ£Όμ μΆμΆμ μ μ©νλ©°, μ΄λ―Έμ§μ λμμ λ°μ΄ν°λ κ°μ²΄ μΈμκ³Ό νλ λΆμμ μ¬μ©λ μ μμ΅λλ€.
- μ΄λ¬ν λ°μ΄ν°λ λ³΄λ€ κΉμ΄ μλ ν΅μ°°μ μ 곡ν μ μμ΅λλ€.
- μ μ₯, λΆμμ΄ μ΄λ €μ
- λΉμ ν λ°μ΄ν°λ κ·Έ ꡬ쑰μ νΉμ±μΌλ‘ μΈν΄ μ μ₯κ³Ό λΆμμ΄ μ΄λ ΅μ΅λλ€.
- μ ν΅μ μΈ RDBMSλ‘λ λΉμ ν λ°μ΄ν°λ₯Ό ν¨κ³Όμ μΌλ‘ μ²λ¦¬νκΈ° μ΄λ €μ°λ©°, μ΄λ₯Ό μν΄ νΉμν μ μ₯ λ° λΆμ λκ΅¬κ° νμν©λλ€.
- μΌκ΄μ± μλ νμ§
- λΉμ ν λ°μ΄ν°λ λ€μν μΆμ²μμ μμ±λλ―λ‘, λ°μ΄ν°μ νμ§μ΄ μΌκ΄λμ§ μμ μ μμ΅λλ€.
- μ΄λ λ°μ΄ν° μ μ (cleaning)μ μ μ²λ¦¬(preprocessing)μ νμμ±μ μ¦κ°μν΅λλ€.
- NoSQL
- λΉμ ν λ°μ΄ν°λ₯Ό κ΄λ¦¬νκΈ° μν΄ NoSQL λ°μ΄ν°λ² μ΄μ€κ° μ¬μ©λ©λλ€.
- NoSQL λ°μ΄ν°λ² μ΄μ€λ μ€ν€λ§κ° μλ λ°μ΄ν°λ₯Ό ν¨μ¨μ μΌλ‘ μ μ₯νκ³ κ²μν μ μλλ‘ μ€κ³λμμ΅λλ€.
- λνμ μΈ NoSQL λ°μ΄ν°λ² μ΄μ€λ‘λ MongoDB, Cassandra, CouchDB λ±μ΄ μμ΅λλ€.
- μ΄λ€ μμ€ν μ λΉμ ν λ°μ΄ν°μ μ μ°ν μ μ₯κ³Ό λΉ λ₯Έ κ²μμ μ§μν©λλ€.
λ°μ ν λ°μ΄ν°
λ°μ ν λ°μ΄ν°(semi-structured data)λ μΌμ ν ꡬ쑰λ₯Ό κ°μ§λ§, νμμ΄ κ³ μ λμ§ μμ λ°μ΄ν°λ₯Ό μλ―Έν©λλ€.
- μ΄λ¬ν λ°μ΄ν°λ κ³ μ λ μ€ν€λ§κ° μμ§λ§, νκ·Έλ λ§ν¬μ μΈμ΄λ₯Ό ν΅ν΄ λ°μ΄ν°λ₯Ό μ€λͺ νλ ꡬ쑰λ₯Ό ν¬ν¨νκ³ μμ΅λλ€.
- μ΄λ μ ν λ°μ΄ν°μ λΉμ ν λ°μ΄ν°μ μ€κ° ννλ‘, λ μ νμ μ₯λ¨μ μ λͺ¨λ κ°μ§κ³ μμ΅λλ€.
- μΌμ ν ꡬ쑰λ₯Ό κ°μ§λ§ νμμ΄ κ³ μ λμ§ μμ λ°μ΄ν°
- λ°μ ν λ°μ΄ν°λ XML, JSON, YAML λ±μ νμμΌλ‘ μ μ₯λ©λλ€. μ΄λ¬ν νμμ λ°μ΄ν° νλͺ© κ°μ κ΄κ³λ₯Ό λͺ μμ μΌλ‘ νννλ©΄μλ κ³ μ λ μ€ν€λ§λ₯Ό μꡬνμ§ μμ΅λλ€. μ΄λ λ°μ΄ν°μ μ μ°μ±κ³Ό νμ₯μ±μ λμ λλ€.
- μκΈ°μ€λͺ
μ
- λ°μ ν λ°μ΄ν°λ μκΈ°μ€λͺ μ (self-describing)μ λλ€. μ¦, λ°μ΄ν° μμ²΄κ° κ΅¬μ‘°μ μλ―Έλ₯Ό ν¬ν¨νκ³ μμ΄ μΆκ°μ μΈ λ©νλ°μ΄ν° μμ΄λ λ°μ΄ν°λ₯Ό μ΄ν΄ν μ μμ΅λλ€. μλ₯Ό λ€μ΄, JSON νμΌμ λ°μ΄ν° νλͺ©κ³Ό κ·Έ κ°μ ν€-κ° μμΌλ‘ λͺ νν μ μν©λλ€.
- μ ν λ°μ΄ν°μ λΉμ ν λ°μ΄ν°μ μ₯λ¨μ 곡μ
- λ°μ ν λ°μ΄ν°λ μ ν λ°μ΄ν°μ λΉμ ν λ°μ΄ν°μ μ₯λ¨μ μ λͺ¨λ 곡μ ν©λλ€. μ ν λ°μ΄ν°μ μ₯μ μΈ λ°μ΄ν° 무결μ±κ³Ό κ΄λ¦¬ μ©μ΄μ±μ μ΄λ μ λ μ μ§νλ©΄μλ, λΉμ ν λ°μ΄ν°μ μ μ°μ±κ³Ό νμ₯μ±μ μ 곡ν©λλ€. μ΄λ λ€μν λ°μ΄ν° μ νμ ν¨μ¨μ μΌλ‘ μ²λ¦¬νκ³ λΆμν μ μκ² ν©λλ€.
- JSON, XML
- λ°μ ν λ°μ΄ν°μ λνμ μΈ μλ‘λ JSON(JavaScript Object Notation)κ³Ό XML(Extensible Markup Language)μ΄ μμ΅λλ€.
- JSON: κ²½λ λ°μ΄ν° κ΅ν νμμΌλ‘, μ¬λκ³Ό κΈ°κ³ λͺ¨λ μ½κ³ μ°κΈ° μ¬μ΄ ν μ€νΈ νμμ λλ€. JSONμ μΉ μ ν리μΌμ΄μ μμ λ°μ΄ν° μ μ‘μ λ§μ΄ μ¬μ©λ©λλ€.
- XML: λ§ν¬μ μΈμ΄λ‘, λ°μ΄ν°μ ꡬ쑰λ₯Ό μ μνκ³ μ€λͺ νλ λ° μ¬μ©λ©λλ€. XMLμ λ¬Έμ μ€μ¬μ λ°μ΄ν° κ΅νμ μ£Όλ‘ μ¬μ©λ©λλ€.
- λ°μ ν λ°μ΄ν°μ λνμ μΈ μλ‘λ JSON(JavaScript Object Notation)κ³Ό XML(Extensible Markup Language)μ΄ μμ΅λλ€.
- JSON λ°μ΄ν° μμ
{
"ID_No": 1,
"Name": "James",
"Email": "James@korea.com",
"Age": 21
},
{
ID_No": 2,
"Name": "Jack",
"Email": "Jack@korea.com",
"Age": 23
}
λ°μ΄ν°μ μΈμ¬μ΄νΈ
λ°μ΄ν° μΈμ¬μ΄νΈλ? λ°μ΄ν° λΆμμ ν΅ν΄ λμΆλ μ μ©ν ν΅μ°°μ΄λ μ 보λ₯Ό μλ―Έν©λλ€.
- μ΄λ λ¨μν λ°μ΄ν°λ₯Ό ν΄μν κ²°κ³Όκ°μ΄ μλλΌ, μλ―Έ μλ μ 보λ₯Ό ν¬ν¨νμ¬ μμ¬κ²°μ κ³Ό λ¬Έμ ν΄κ²°μ μ§μ μ μΌλ‘ κΈ°μ¬ν μ μλ λ°μ΄ν°λ₯Ό λ§ν©λλ€.
λ°μ΄ν° μΈμ¬μ΄νΈκ° μ€μν μ΄μ ?
λ°μ΄ν° μΈμ¬μ΄νΈλ λ€μν λΆμΌμμ μ€μν μν μ ν©λλ€. νΉν λ°μ΄ν° λΆμκ°μ AI κ°λ°μμκ²λ νμμ μΈ μμμ λλ€.
- λ°μ΄ν° κΈ°λ° μμ¬κ²°μ : λ°μ΄ν° λΆμκ°λ λ°μ΄ν°λ₯Ό λΆμνμ¬ μ λ’°μ± λμ μΈμ¬μ΄νΈλ₯Ό λμΆν¨μΌλ‘μ¨, μ‘°μ§μ΄ λ°μ΄ν° κΈ°λ° μμ¬κ²°μ μ λ΄λ¦΄ μ μλλ‘ λμ΅λλ€. μ΄λ μ§κ΄μ΄λ κ²½νμ μμ‘΄ν μμ¬κ²°μ λ³΄λ€ λ κ°κ΄μ μ΄κ³ μ νν©λλ€.
- λͺ¨λΈ μ±λ₯ κ°μ λ° λ°μ΄ν° νμ§: AI κ°λ°μλ λ°μ΄ν° μΈμ¬μ΄νΈλ₯Ό νμ©νμ¬ λͺ¨λΈμ μ±λ₯μ κ°μ νκ³ , λ°μ΄ν° νμ§μ ν₯μμν¬ μ μμ΅λλ€. μλ₯Ό λ€μ΄, λ°μ΄ν° μΈμ¬μ΄νΈλ₯Ό ν΅ν΄ λͺ¨λΈμ΄ μ€μλνλ μ΄μ λ₯Ό νμ νκ³ , λ°μ΄ν°μ μ νμ§μ κ°μ νλ λ° νμν μ‘°μΉλ₯Ό μ·¨ν μ μμ΅λλ€.
λ°μ΄ν° λΆμκ³Ό AIμ κΆκ·Ήμ μΈ λͺ©νλ μ μλ―Έν μΈμ¬μ΄νΈ λμΆ
λ°μ΄ν° λΆμκ³Ό AIμ κΆκ·Ήμ μΈ λͺ©νλ μ μλ―Έν μΈμ¬μ΄νΈλ₯Ό λμΆνλ κ²μ λλ€.
- λ€μν μ΄ν΄κ΄κ³μκ° μ΄λ¬ν μΈμ¬μ΄νΈλ₯Ό νμ©νμ¬ μμ¬κ²°μ κ³Ό νμ μ μ΄λμ΄λ΄λ κ²μ΄ μ€μν©λλ€.
- μμ¬κ²°μ : κ²½μμ§, λ§μΌν ν, μ ν κ°λ° ν λ± λ€μν λΆμμμ λ°μ΄ν° μΈμ¬μ΄νΈλ₯Ό νμ©νμ¬ μ λ΅μ μμ¬κ²°μ μ λ΄λ¦΄ μ μμ΅λλ€. μλ₯Ό λ€μ΄, λ§μΌν μΊ νμΈμ ν¨κ³Όλ₯Ό λΆμνκ±°λ, μ μ ν μΆμ μ λ΅μ μ립νλ λ° λ°μ΄ν° μΈμ¬μ΄νΈκ° ν° λμμ΄ λ©λλ€.
- νμ : λ°μ΄ν° μΈμ¬μ΄νΈλ μ‘°μ§μ΄ μλ‘μ΄ κΈ°νλ₯Ό λ°κ²¬νκ³ , κΈ°μ‘΄ νλ‘μΈμ€λ₯Ό νμ νλ λ° κΈ°μ¬ν μ μμ΅λλ€. μλ₯Ό λ€μ΄, κ³ κ° νλ λΆμμ ν΅ν΄ μλ‘μ΄ μλΉμ€λ μ νμ κ°λ°νκ±°λ, μ΄μ ν¨μ¨μ±μ λμ΄κΈ° μν νλ‘μΈμ€ κ°μ μμ΄λμ΄λ₯Ό λμΆν μ μμ΅λλ€.
λ°μ΄ν°μ μμ§ λ°©λ²
λ΄λΆ λ°μ΄ν° vs μΈλΆ λ°μ΄ν°
λ΄λΆ λ°μ΄ν°
λ΄λΆ λ°μ΄ν°λ μ‘°μ§ λ΄λΆμμ μμ±λκ³ μμ§λλ λ°μ΄ν°λ‘, μ£Όλ‘ λ΄λΆ μμ€ν μμ μ»μ΄μ§λλ€. μ£Όμ μμλ λ€μκ³Ό κ°μ΅λλ€.
- μμ λ°μ΄ν°: ν맀 κΈ°λ‘, μμ νλ λ³΄κ³ μ, κ³ κ° μνΈμμ© κΈ°λ‘ λ± μμ νλκ³Ό κ΄λ ¨λ λ°μ΄ν°μ λλ€.
- κ³ κ° λ°μ΄ν°: κ³ κ°μ μΈμ μ 보, ꡬ맀 μ΄λ ₯, νΌλλ°±, κ³ κ° μλΉμ€ κΈ°λ‘ λ±μ ν¬ν¨ν©λλ€.
- νΈλμμ λ°μ΄ν°: ꡬ맀, νλΆ, κ²°μ λ±μ κΈμ΅ κ±°λ κΈ°λ‘μ ν¬ν¨ν©λλ€.
- μμ€μ½λ: μννΈμ¨μ΄ κ°λ° κ³Όμ μμ μμ±λ μ½λμ κ΄λ ¨ λ°μ΄ν°μ λλ€.
- μ¬μμ 보: μ§μμ μΈμ¬ κΈ°λ‘, κΈμ¬ μ 보, μ±κ³Ό νκ° λ°μ΄ν° λ±μ ν¬ν¨ν©λλ€.
μΈλΆ λ°μ΄ν°
μΈλΆ λ°μ΄ν°λ μ‘°μ§ μΈλΆμμ μμ±λκ³ μμ§λλ λ°μ΄ν°λ‘, 곡곡 κΈ°κ΄, μμ₯ μ‘°μ¬ κΈ°κ΄, μΈλΆ μμ€ν λ± λ€μν μΆμ²μμ μ»μ΄μ§λλ€.
μ£Όμ μμλ λ€μκ³Ό κ°μ΅λλ€.
- 곡곡 λ°μ΄ν°: μ λΆλ 곡곡 κΈ°κ΄μμ μ 곡νλ λ°μ΄ν°λ‘, μΈκ΅¬ ν΅κ³, κ²½μ μ§ν, νκ²½ λ°μ΄ν° λ±μ΄ ν¬ν¨λ©λλ€.
- μμ₯ λ°μ΄ν°: μμ₯ μ‘°μ¬ κΈ°κ΄μ΄λ μ°κ΅¬μμμ μμ§ν λ°μ΄ν°λ‘, κ²½μμ¬ λΆμ, μλΉμ νλ μ°κ΅¬, μ°μ νΈλ λ λ±μ ν¬ν¨ν©λλ€.
- μ‘°μ¬ λ°μ΄ν°: μ€λ¬Έ μ‘°μ¬, μΈν°λ·°, νλ³Έ μ‘°μ¬ λ±μ ν΅ν΄ μμ§ν λ°μ΄ν°μ λλ€.
OpenAPI
λꡬλ μ κ·Όν μ μλλ‘ κ°λ°©λ API(Application Programming Interface)λ₯Ό μλ―Έν©λλ€.
- νΉμ κΈ°λ₯μ΄λ λ°μ΄ν°λ₯Ό μΈλΆ κ°λ°μμ 곡μ νμ¬, λ€μν μ ν리μΌμ΄μ μ΄λ μλΉμ€λ₯Ό κ°λ°ν μ μλλ‘ λμ΅λλ€. μ£Όμ νΉμ§μ λ€μκ³Ό κ°μ΅λλ€.
- ꡬ쑰νλ λ°μ΄ν° μ 곡: OpenAPIλ ꡬ쑰νλ λ°μ΄ν°λ₯Ό μ 곡νμ¬, κ°λ°μκ° λ°μ΄ν°λ₯Ό μ½κ² μ κ·Όνκ³ μ¬μ©ν μ μλλ‘ ν©λλ€. μΌλ°μ μΌλ‘ JSON, XML λ±μ νμμ μ¬μ©ν©λλ€.
- μΈμ¦ νμ (API ν€): λλΆλΆμ OpenAPIλ 보μκ³Ό μ¬μ© μΆμ μ μν΄ API ν€λ₯Ό μꡬν©λλ€. API ν€λ μ¬μ©μκ° APIμ μ κ·Όν μ μλ κΆνμ νμΈνκ³ , μ¬μ©λμ λͺ¨λν°λ§νλ λ° μ¬μ©λ©λλ€.
Open Data
Open Dataλ λꡬλ μ κ·Όν μ μλλ‘ κ³΅κ°λ λ°μ΄ν°λ₯Ό μλ―Έν©λλ€.
- μ λΆ, κΈ°κ΄, λ¨μ²΄ λ±μμ μ 곡νλ©°, 곡곡μ μ΄μ΅μ μν΄ μμ λ‘κ² μ¬μ©ν μ μμ΅λλ€. μ£Όμ νΉμ§μ λ€μκ³Ό κ°μ΅λλ€:
- λꡬλ μ κ·Όν μ μλλ‘ κ³΅κ°λ λ°μ΄ν°: Open Dataλ λͺ¨λ μ¬λμ΄ μμ λ‘κ² μ κ·Όνκ³ μ¬μ©ν μ μμ΅λλ€. μ΄λ λ°μ΄ν°μ ν¬λͺ μ±μ λμ΄κ³ , λ€μν μ°κ΅¬μ λΆμμ νμ©λ μ μμ΅λλ€.
- μ λΆ, κΈ°κ΄, λ¨μ²΄ λ±μμ μ 곡: Open Dataλ μ£Όλ‘ μ λΆ κΈ°κ΄, 곡곡 λ¨μ²΄, λΉμ리 μ‘°μ§ λ±μ΄ μ 곡νλ©°, 곡곡 λ°μ΄ν° ν¬νΈ λ±μ ν΅ν΄ μ½κ² μ κ·Όν μ μμ΅λλ€. μ΄λ¬ν λ°μ΄ν°λ μ μ± λΆμ, μ°κ΅¬, μ°μ λ°μ λ±μ μ€μν μν μ ν©λλ€.
ν¬λ‘€λ§ (Crawling)
ν¬λ‘€λ§(crawling)μ μλνλ μ€ν¬λ¦½νΈλ₯Ό μ¬μ©νμ¬ μΉ νμ΄μ§λ₯Ό νμνκ³ λ°μ΄ν°λ₯Ό μμ§νλ λ°©λ²μ λλ€.
- μ΄λ μΉ μ¬μ΄νΈ μ 체 λλ λ€μμ νμ΄μ§λ₯Ό νμνλ©΄μ λ°μ΄ν°λ₯Ό μΆμΆνλ κ³Όμ μΌλ‘, κ²μ μμ§μ ν¬λ‘€λ¬μ μ μ¬ν©λλ€.
- μλνλ μ€ν¬λ¦½νΈ: ν¬λ‘€λ¬λ νΉμ κ·μΉμ λ°λΌ μΉ νμ΄μ§λ₯Ό λ°©λ¬Ένκ³ , ν΄λΉ νμ΄μ§μ μ½ν μΈ λ₯Ό μμ§νλ μλνλ μ€ν¬λ¦½νΈμ λλ€.
- μ 체 μ¬μ΄νΈ λλ λ€μμ νμ΄μ§ νμ: ν¬λ‘€λ§μ μΌλ°μ μΌλ‘ μ 체 μΉ μ¬μ΄νΈλ₯Ό νμνκ±°λ, λ€μμ νμ΄μ§λ₯Ό μμ°¨μ μΌλ‘ λ°©λ¬Ένμ¬ λ°μ΄ν°λ₯Ό μμ§ν©λλ€.
- κ²μ μμ§μ ν¬λ‘€λ¬μ μ μ¬: κ²μ μμ§ ν¬λ‘€λ¬λ μΉ νμ΄μ§λ₯Ό μΈλ±μ±νμ¬ κ²μ κ²°κ³Όλ₯Ό μ 곡νλλ°, μ΄μ μ μ¬ν λ°©μμΌλ‘ λ°μ΄ν°λ₯Ό μμ§ν©λλ€.
μ€ν¬λν (Scrapping)
μ€ν¬λν(scraping)μ νΉμ μΉ νμ΄μ§μμ νμν λ°μ΄ν°λ₯Ό μΆμΆνλ λ°©λ²μ λλ€. μ΄λ μΉ ν¬λ‘€λ§μ νμ μ§ν©μΌλ‘, νΉμ λ°μ΄ν°λ§ μμ§νλ λ° μ§μ€ν©λλ€.
- νΉμ μΉ νμ΄μ§μμ νμν λ°μ΄ν° μΆμΆ: μ€ν¬λνμ μΉ νμ΄μ§μ νΉμ μμλ μ 보λ₯Ό μΆμΆνλ κ³Όμ μ λλ€. μλ₯Ό λ€μ΄, μ ν κ°κ²©, 리뷰, μ°λ½μ² μ 보 λ±μ μΆμΆν μ μμ΅λλ€.
- μΉ ν¬λ‘€λ§μ νμ μ§ν©: μ€ν¬λνμ ν¬λ‘€λ§μ μΌλΆλ‘μ, ν¬λ‘€λ¬κ° νμν μΉ νμ΄μ§μμ νΉμ λ°μ΄ν°λ₯Ό μΆμΆνλ μμ μ μλ―Έν©λλ€.
λ°μν
'π Data Analysis' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[Data Analysis] κΈ°μ΄ ν΅κ³, μκ΄ & μΈκ³Όκ΄κ³ (0) | 2024.07.18 |
---|---|
[Data Analysis] λ°μ΄ν°μ μ’ λ₯μ μμ± & λ°μ΄ν° νμ (EDA) (0) | 2024.07.18 |
[Data Analysis] Data Analysis - λ°μ΄ν° λΆμ (0) | 2024.07.17 |
[Data Analysis] λ°μ΄ν° μ μ²λ¦¬ (Data Pre-Processing) (0) | 2024.07.12 |
[Data Analysis] λ°μ΄ν° μμ§ (Crawling, Scrapping) (0) | 2024.07.12 |