AI Readable Data Platform (ARDP)
One line — AI Readable Data Platform (ARDP) turns a company's databases & documents into data an AI can read — an ontology / Virtual Knowledge Graph — and answers natural-language questions over it. As application architect & backend engineer I designed the cross-module data flow and built the structured-build, deploy, and inference pieces. (Ongoing — applied to the AI-SCM domain)
Overview
ARDP converts structured (RDB/CSV) and unstructured (policy/SI documents) data into an ontology so an LLM can query it reliably. Structured DBs are exposed as a Virtual Knowledge Graph via Ontop (no data duplication) over a Trino federation of 5 heterogeneous DBs, and users ask questions in plain language that are translated to SPARQL. It is built as microservices around a single source of truth, and is applied to the AI-SCM (HR / SI workforce) domain.
My role & key contributions
① Application architecture — the data flow between modules. I designed the end-to-end pipeline as application architect: how data_management ingests and serves data as the single source of truth, how the structured service finishes an ontology build, and how deploy-hooks then fires to publish the artifacts and bring up Ontop / Trino so the new graph is immediately queryable.
- ② Ontop + Trino structure. Designed the serving layer — Trino federates 5 heterogeneous DBs (PostgreSQL · MySQL · MSSQL · Oracle · MongoDB) into one SQL surface, and Ontop exposes it as a SPARQL-queryable VKG.
- ③ AWS infrastructure architecture — defined the cloud architecture in coordination with the infrastructure team.
- ④ RDB → graph modeling methodology. Developed the PK/FK-based table-clustering method that decides how relational tables map to a property graph — classifying each table (Entity / Junction / …) from its primary/foreign keys & cardinality, combining rule-based classification with LLM correction.
- ⑤ Semantic inference (catalog-grounded NL → SPARQL). Built the inference modes; Graph-Explorer and Graph-Hop are my own ideas — and Graph-Explorer performs notably well.
- ⑥ AI-SCM golden set — building, testing, and tuning the evaluation/golden answer set that the platform is measured and improved against.
| Inference mode | How | Best for |
|---|---|---|
| One-Shot | NL → 1 SPARQL → answer (schema + value catalog grounding) | simple lookups |
| N-Shot | decompose into sub-questions → multiple SPARQL → synthesize | complex / multi-condition |
| Graph-Explorer ★ | LLM agent (LangGraph) explores the KnowledgeGraph and queries directly | relationship-following · strong accuracy |
| Graph-Hop ★ | anchor + hop-expansion over very large schemas | large schemas that don't fit one prompt |
Why a Virtual Knowledge Graph? Unlike Text-to-SQL (the LLM must read raw, cryptic DB schemas) or RAG (data must be pre-embedded and can't reflect live changes), the VKG puts a semantic layer + value catalog between the DB and the LLM, so the LLM writes SPARQL against clean business concepts while Ontop translates it to SQL on the live, federated database.
한 줄 요약 — AI Readable Data Platform (ARDP) 는 기업의 DB·문서를 AI가 읽을 수 있는 데이터(온톨로지 / 가상 지식그래프)로 바꾸고 자연어로 질의·추론하는 플랫폼이다. 애플리케이션 아키텍트 겸 백엔드 엔지니어로서 모듈 간 데이터 flow 를 설계하고 정형 빌드·배포·추론 영역을 개발했다. (진행 중 — AI-SCM 도메인 적용)
개요
ARDP 는 정형(RDB/CSV)·비정형(정책/SI 문서) 데이터를 온톨로지로 변환해 LLM 이 안정적으로 질의할 수 있게 한다. 정형 DB 는 Trino 로 5개 이기종 DB 를 연합한 뒤 Ontop 으로 가상 지식그래프(VKG) 로 노출(데이터 복제 없음)하고, 사용자는 자연어로 물으면 SPARQL 로 변환·실행된다. 단일 진실원(SoT) 중심의 마이크로서비스로 구성되며 AI-SCM(인사/SI 인력) 도메인에 적용 중이다.
담당 역할 & 핵심 기여
① 애플리케이션 아키텍처 — 모듈 간 데이터 flow. 앱 아키텍트로서 전체 파이프라인을 설계했다. data_management 가 데이터를 어떻게 처리해 단일 진실원으로 제공하는지, structured 에서 온톨로지 빌드가 끝났을 때 deploy-hooks 가 어떻게 작동해 산출물을 배포하고 Ontop / Trino 를 기동시켜 새 그래프를 바로 질의 가능하게 만드는지 — 이 트리거와 흐름 전체를 잡았다.
- ② Ontop + Trino 구조. 서빙 레이어를 설계 — Trino 로 5개 이기종 DB(PostgreSQL · MySQL · MSSQL · Oracle · MongoDB)를 하나의 SQL 로 연합하고, Ontop 으로 SPARQL 질의 가능한 VKG 로 노출.
- ③ AWS 인프라 아키텍처 — 인프라팀과 협의해 클라우드 아키텍처를 설계.
- ④ RDB → 그래프 모델링 방법론. 관계형 테이블을 프로퍼티 그래프로 어떻게 매핑할지 결정하는 PK/FK 기반 테이블 클러스터링 방법론을 개발 — 기본키/외래키·카디널리티로 각 테이블을 Entity/Junction 등으로 분류(규칙 기반 + LLM 보정).
- ⑤ 시멘틱 추론 (카탈로그 기반 자연어 → SPARQL). 추론 모드들을 개발했고, Graph-Explorer 와 Graph-Hop 은 내 아이디어로 개발 — 특히 Graph-Explorer 가 상당히 잘 동작한다.
- ⑥ AI-SCM 골든셋 — 플랫폼을 측정·개선하는 기준이 되는 평가/정답셋을 구축·테스트·튜닝.
| 추론 모드 | 방식 | 적합 |
|---|---|---|
| One-Shot | 자연어 → SPARQL 1개 → 답변 (스키마 + 값 카탈로그 grounding) | 단순 조회 |
| N-Shot | 하위 질문 분해 → 여러 SPARQL → 결과 종합 | 복합 · 다중 조건 |
| Graph-Explorer ★ | LLM 에이전트(LangGraph)가 KnowledgeGraph 를 탐색하며 직접 질의 | 관계 추적 · 정확도 우수 |
| Graph-Hop ★ | 앵커 + hop 확장으로 대규모 스키마 처리 | 한 프롬프트에 안 들어가는 큰 스키마 |
왜 가상 지식그래프(VKG)인가? Text-to-SQL(LLM 이 난해한 원시 DB 스키마를 직접 봐야 함)·RAG(미리 임베딩해야 하고 실시간 변경 반영 불가)와 달리, VKG 는 DB 와 LLM 사이에 시맨틱 레이어 + 값 카탈로그를 둔다. LLM 은 깔끔한 비즈니스 개념으로 SPARQL 을 쓰고, Ontop 이 이를 실시간·연합 DB 의 SQL 로 변환한다.
🏢 SK Inc. AX 재직 중 진행한 사내 프로젝트(AI Readable Data Platform)입니다 · 보안상 내부 데이터·자격증명·고객 정보는 제외하고 아키텍처·역할 중심으로 정리했습니다.