전체 글 75

[3D와 디지털 트윈 ①] 2D 이미지에서 3D 공간이 만들어지는 과정

2D 이미지에서 3D 공간이 만들어지는 과정디지털 트윈을 처음 공부하면 가장 먼저 이런 생각이 듭니다.“현실을 디지털로 그대로 옮긴다는데, 그걸 어떻게 만드는 걸까?”겉으로 보면 디지털 트윈은 그냥 멋진 3D 화면처럼 보일 수 있습니다.하지만 실제로는 단순히 예쁜 그래픽을 만드는 일이 아닙니다.핵심은 현실 세계를 컴퓨터가 이해할 수 있는 3차원 정보로 바꾸는 것입니다.그리고 그 출발점이 바로 3D 재구성(3D Reconstruction) 입니다.이번 글에서는 3D 분야를 처음 접하는 분도 이해할 수 있도록,2D 이미지가 어떻게 3D 공간 표현으로 이어지는지를 아주 기초부터 천천히 설명해보겠습니다.1. 왜 3D 재구성이 필요할까?우리가 스마트폰이나 카메라로 찍는 사진은 기본적으로 2D 이미지입니다.가로와 ..

Anomaly Detection과 OOD Detection

분류 모델을 처음 만들면 보통 이런 기대를 하게 됩니다.고양이와 강아지를 학습시켰으면, 테스트에서도 잘 구분해주겠지 하는 기대입니다.그런데 실제 환경은 그렇게 단순하지 않습니다.현실에서는 학습할 때 보지 못한 데이터가 계속 들어옵니다.감시 카메라 장면에서는 평소 보지 못한 움직임이 등장할 수 있고, 일반 이미지 분류기에는 애초에 학습 대상이 아니었던 물체가 들어올 수 있습니다.문제는 대부분의 모델이 모르는 것을 모른다고 말하도록 훈련되어 있지 않다는 점입니다. 그래서 정상과 비정상을 구분하는 문제, 그리고 학습 분포 안과 밖을 구분하는 문제가 중요해집니다. 보안·감시 분야에서는 평소와 다른 데이터 패턴을 빠르게 파악하고, 이전에 보지 못했던 종류의 데이터도 감지해야 한다는 점이 강조된다.이번 글에서는 이..

Vector DB

비슷한 것을 찾는 AI 시스템의 핵심 구조 이해하기요즘 LLM이나 멀티모달 시스템을 이야기하다 보면, 어느 순간부터 꼭 따라붙는 단어가 있습니다.바로 Vector DB입니다.처음 들으면 이름부터 조금 낯섭니다.데이터베이스는 알겠는데, 벡터 데이터베이스는 또 무엇일까 싶은 것이죠.게다가 여기에 CLIP, FAISS, 임베딩, 유사도 검색, 이상 탐지 같은 단어까지 같이 나오기 시작하면 머릿속이 금방 복잡해집니다.그런데 조금만 천천히 뜯어보면 이 흐름은 생각보다 자연스럽습니다.결국 이 글에서 다루는 내용은 한 문장으로 정리할 수 있습니다.“AI가 데이터를 숫자 벡터로 바꾸고, 그 벡터들 사이의 비슷함을 빠르게 찾게 만들려면 어떻게 해야 할까?”이번 글에서는 바로 이 질문을 중심으로, Vector DB가 왜 ..

LangChain, RAG, Agent

LangChain, RAG, Agent란 무엇일까처음 보는 사람도 이해할 수 있게 한 번에 정리해보기LLM을 처음 접하면 비슷해 보이는 단어들이 한꺼번에 쏟아집니다.LangChain, RAG, Agent, Memory, Retriever, Tool, Vector DB 같은 말들입니다.이름만 보면 전부 비슷비슷해 보이는데, 실제로는 역할이 조금씩 다릅니다. LangChain은 LLM 애플리케이션을 조립하기 위한 프레임워크에 가깝고, 그 안에서 프롬프트, 대화 기록, 문서 검색, 외부 도구 호출 같은 구성 요소를 연결할 수 있습니다. 또 검색 기반 응답을 만드는 RAG, 도구를 선택해 행동을 수행하는 Agent 같은 구조도 함께 다룰 수 있습니다.처음에는 이런 의문이 생깁니다.“그냥 LLM API에 질문만 ..

ROS 2 & AI 로 끝내는 자율주행 로봇 개발 올인원

🎯 교육 내용실물 모바일 로봇 조립과 라즈베리파이5 기반 개발 환경 구성을 통해 로봇 하드웨어·소프트웨어 기초 이해ROS 2의 Package, Node, Launch, Topic, Service, Action, 디버깅 도구를 실습하며 로봇 소프트웨어 개발 구조 학습Encoder, IMU, Odometry, LiDAR, Camera 등 다양한 센서를 활용해 위치 추정, 장애물 회피, 추종, 인식 기능 구현 경험SLAM Toolbox, AMCL, Nav2, Costmap, Path Planning, 파라미터 튜닝을 학습하며 자율주행 로봇의 맵 생성·위치추정·경로계획 과정 이해라즈베리파이5와 Docker 환경에서 YOLO 기반 객체 탐지·분할·자세 추정과 LLM·VLM·LMM 활용 프로젝트를 수행하며 지능형..

스마트 가전 서비스로 끝내는 5가지 멀티모달 AI 프로덕트 개발

🎯 교육 내용스마트 홈·가전 서비스 구현을 목표로, GPT-4 Vision·CLIP·Vector DB·LangChain·Multimodal LLM 등 멀티모달 AI 핵심 기술의 실전 활용 방법 학습영상 이상 탐지, 객체 탐지, 이미지 캡셔닝, 분할, 추적, 인페인팅, 텍스트 기반 이미지 생성 등 컴퓨터 비전 기반 기능 구현 경험모달 간 정보 결합과 프롬프트 엔지니어링, 검색·메모리·에이전트 설계를 통해 Vision-Language 기반 서비스 구조 이해스마트 방범 시스템, 홈 어시스턴트 로봇, 스마트 냉장고, AI 사진 편집기, 반려동물 지킴이 등 5개 멀티모달 AI 프로젝트 중심으로 학습웹 데모·백엔드·추천·알림·요약 기능까지 포함한 프로젝트 실습을 통해 실제 서비스 형태의 AI 프로덕트 개발 과정 ..

[최종 프로젝트] ROS2 기반 RGB-D 객체 탐지 VLM 서비스 로봇

https://youtu.be/2mRpJeysa7Y 이번 프로젝트에서는 장면이해, 자율주행, 상황인식, 언어 명령 이해를 하나로 묶은 멀티모달 서비스 로봇 시스템을 구현했다.단순히 “목표 지점까지 이동하는 로봇”이 아니라, 사용자의 자연어 명령을 이해하고, 객체 탐지를 통해 위험성을 판단하면서 집 안을 이동한 뒤, 카메라로 주변을 확인하고, 그 결과를 다시 사용자에게 전달할 수 있는 형태를 목표로 했다.예를 들면 이런 식이다.“엔드포인트로 가서 뭐가 보이는지 알려줘”“현관으로 가서 문이 닫혀 있는지 확인해줘”“집으로 다시 돌아와”이런 요청을 로봇이 받아서,어디로 이동해야 하는지 결정하고,실제로 자율주행을 수행하고,도착 후 현재 장면을 인식하고,결과를 텍스트로 보고하는 흐름이다.겉으로 보기에는 단순한 서..

Vision Tasks and Layers

딥러닝을 공부하다 보면 비슷해 보이는데 다른 작업들이 자주 등장합니다.분류, localization, detection, segmentation이 대표적입니다. 처음에는 이름만 비슷해서 헷갈리기 쉬운데, 실제 차이는 모델이 어디까지 예측하느냐에 있습니다.가장 단순한 것은 image classification입니다.입력 이미지 전체를 보고 하나의 라벨, 혹은 여러 라벨을 예측합니다. 즉, 고양이 사진이면 “고양이”라고 답하는 방식입니다. 여기서는 이미지 안의 어디에 있는지는 중요하지 않고, 이미지 전체가 무엇인지가 핵심입니다.그다음은 object localization입니다.이제는 단순히 무엇이 있는지만이 아니라, 그 물체가 어디 있는지도 함께 알아야 합니다. 그래서 출력에 bounding box가 추가됩..