Skip to content

[ai-assisted] feat(chunking): Blockify 청킹 PoC 추가#515

Open
donghyuck wants to merge 1 commit into
2.xfrom
codex/blockify-chunking-poc
Open

[ai-assisted] feat(chunking): Blockify 청킹 PoC 추가#515
donghyuck wants to merge 1 commit into
2.xfrom
codex/blockify-chunking-poc

Conversation

@donghyuck

Copy link
Copy Markdown
Owner

Why

Markdown 기반 RAG에서 질문·답변 중심 Knowledge Block 청킹을 PoC로 검증할 수 있도록 blockify 전략이 필요합니다. 기존 structure-based와 동일 원본 기준 Projection을 분리해 검색 품질, 답변 품질, 처리 성능, 비용을 비교할 수 있게 합니다.

What

  • ChunkingStrategyTypeBLOCKIFY("blockify")를 추가하고 Markdown pipeline option에서 chunkingStrategy=blockify를 허용했습니다.
  • starter-chunking에 opt-in BlockifyChunker, BlockifyGenerator 포트, deterministic HeuristicBlockifyGenerator를 추가했습니다.
  • Blockify chunk metadata에 schemaVersion, requestedChunkingStrategy, actualChunkingStrategy, blockifyFingerprint, sourceEvidence, validationStatus, promptVersion, generatorModel 등을 저장하도록 했습니다.
  • 표 섹션, 입력 token 상한 초과, 생성 결과 검증 실패는 structure-based fallback chunk로 보존합니다.
  • studio.chunking.blockify.* 설정 metadata, README, CHANGELOG, 단위/자동설정/Markdown option 테스트를 추가했습니다.

Related Issues

Validation

  • Command: ./gradlew :studio-platform-chunking:test :starter:studio-platform-starter-chunking:test :studio-platform-markdown:test :starter:studio-platform-starter-markdown:test
  • Result: PASS
  • Command: git diff --check
  • Result: PASS

Risk / Rollback

  • Risk: studio.chunking.blockify.enabled=true를 켠 환경에서 PoC heuristic generator 결과가 기대한 운영 LLM 결과와 다를 수 있습니다. 기본값은 비활성이라 기존 전략에는 영향이 없습니다.
  • Rollback: 이 PR을 revert하면 blockify 전략, 설정, metadata 생성 경로가 제거되고 기존 fixed-size, recursive, structure-based 동작으로 돌아갑니다.

AI / Subagent Usage

  • AI-assisted: Yes
  • Subagent used: No
  • Delegated scope: N/A
  • Main author validation: CodeGraph로 chunking/Markdown pipeline 호출 흐름을 확인하고 관련 Gradle 테스트와 git diff --check를 실행했습니다.

Checklist

  • commit message follows policy
  • issue template used or exception recorded
  • AI-Assisted value is correct
  • validation recorded
  • subagent usage recorded when used
  • CI / repository verification passed
  • human review completed before merge
  • no unrelated changes included

Issue:
- Closes #514

Why:
- Markdown 기반 RAG에서 질문·답변 중심 Knowledge Block 청킹을 PoC로 검증할 수 있도록 blockify 전략이 필요했다.

What:
- ChunkingStrategyType에 blockify 전략을 추가하고 Markdown pipeline option 검증에서 허용했다.
- chunking starter에 opt-in BlockifyChunker, BlockifyGenerator 포트, deterministic heuristic generator, blockify 설정 metadata를 추가했다.
- blockify metadata schema, fingerprint, requested/actual strategy, source evidence, section fallback 정보를 chunk metadata에 저장하도록 했다.
- blockify 비활성 오류, fallback, fingerprint 안정성, 자동설정, Markdown option 테스트를 추가했다.
- README와 CHANGELOG를 갱신했다.

Validation:
- ./gradlew :studio-platform-chunking:test :starter:studio-platform-starter-chunking:test :studio-platform-markdown:test :starter:studio-platform-starter-markdown:test: PASS
- git diff --check: PASS
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant