전문 분야에서 도메인 지식은 AI가 빠르게 컨텍스트를 파악하는 데 중요한 역할을 한다. 최근 의료, 생물, 화학, 물리 등 28개 과학 분야의 DB와 파이썬 라이브러리를 Claude Code Skills로 패키징한 사례가 등장했다. 스킬을 제작할 때는 마크다운 구조가 중요한데, 기존 지식을 md와 yaml 데이터로 정리하면 언어모델이 점차 참고할 수 있는 효율적인 컨텍스트 관리가 가능해진다.

해당 팀이 개발한 스킬은 아래 링크에서 확인할 수 있다.
https://github.com/K-Dense-AI/claude-scientific-skills
https://www.threads.com/@cmds_pace/post/DTO-8v8EdLK?xmt=AQF0eOtNsJQyE-D0grRbJSjWtxU8PDQJ_5V6XRbPYqoUN4raDm3Uwymml3dQXblEEWoeDZfN&slof=1

이 프로젝트는 과학 분야의 전문성을 AI 스킬로 구체화한 사례로, 마크다운 기반의 지식 체계화가 어떻게 실제 응용으로 이어지는지 보여준다. 복잡한 데이터를 구조화된 포맷으로 정리하는 과정이 AI 활용도를 높이는 핵심 단계임을 확인할 수 있다.

Claude Skills 레포지토리 중 가장 완성도 높은 사례로 Composio의 Awesome-Claude-Skills를 꼽을 수 있다. 이 프로젝트는 즉시 사용 가능한 워크플로우를 수백 개 패키징하여 제공하며, PDF 문서 처리부터 체인지로그 자동 생성, Playwright 자동화, AWS/CDK 도구, MCP 빌더 등 실무 환경에 바로 투입 가능한 구성 요소를 포함한다.

레포지토리가 커버하는 범위는 매우 넓지만, 모든 도구와 스킬이 무료로 제공되며 오픈소스 라이선스 하에 배포된다. 개발자와 생산성 도구를 찾는 사용자 모두에게 유용한 리소스로, 특히 복잡한 작업을 자동화하는 데 관심이 있는 경우 꼭 확인해 볼 가치가 있다.

[Awesome-Claude-Skills](https://github.com/ComposioHQ/awesome-claude-skills](https://github.com/ComposioHQ/awesome-claude-skills)

이 레포지토리의 강점 중 하나는 즉시 활용 가능한 실무 중심 구성이다. 예를 들어 문서 처리 스킬은 PDF, Word, Excel, PowerPoint 파일을 분석하고 편집하는 기능을 제공한다. 개발 분야에서는 AWS 인프라 관리, 테스트 자동화, 코드 품질 검증 등을 위한 도구가 포함되어 있다. 마케팅과 비즈니스 영역에서는 광고 분석, 도메인 생성, 리드 발굴 등 업무 효율을 높이는 스킬셋이 준비되어 있다.

또한, MCP(Model Context Protocol) 빌더와 같은 고급 도구는 외부 API와의 통합을 간소화하며, Playwright 기반 웹 자동화 스킬은 프론트엔드 테스트 및 디버깅을 지원한다. 모든 스킬은 Claude.ai, Claude Code, Claude API에서 호환되도록 설계되어 플랫폼 간 일관된 워크플로우를 구축할 수 있다.

기술 스택은 Python과 JavaScript를 중심으로 구성되며, 각 스킬은 독립적으로 동작하거나 필요에 따라 조합할 수 있다. 레포지토리는 활발한 커뮤니티 기여를 바탕으로 지속적으로 업데이트되며, Apache-2.0 라이선스로 배포되어 자유롭게 사용 및 개조가 가능하다.

앤트로픽, AI 에이전트 문제 탐지 평가 프레임워크 ‘블룸’ 출시

앤트로픽이 복잡한 AI 모델의 의도를 벗어난 행동을 신속하게 찾아낼 수 있는 오픈소스 평가 도구 ‘블룸(Bloom)‘을 공개하며 AI 안전성 검증 방식을 혁신하고 있다. 이 도구는 기존 평가 방식의 한계인 시간 소모성·데이터 오염 위험을 해결하며, 자동화된 행동 분석을 통해 효율적인 정렬(alignment) 검증을 가능케 한다.

블룸의 핵심 기능: 4단계 평가 프로세스

블룸은 연구자가 정의한 특정 행동의 발생 빈도와 강도를 정량화하는 4단계 평가 시스템을 구축했다.

이해(Understanding): AI 모델이 평가할 행동과 기준(예: 대화 샘플)을 분석
아이디어(Ideation): 해당 행동을 유발할 평가 시나리오 자동 생성
롤아웃(Rollout): 다중 턴 대화·도구 사용 시뮬레이션을 통해 실제 상호작용 실행
판단(Judgment): 판정 모델이 대화 점수화 후 메타 판정으로 핵심 지표 산출

이 과정에서 ‘시드(Seed)’ 설정 파일을 통해 동일 조건 재현이 가능하며, 평가 모델 선택·대화 길이 조정·가상 사용자 설정 등 유연한 커스터마이징이 지원된다.

벤치마크 결과와 인간 평가 간 높은 일치도

앤트로픽은 16개 프런티어 모델을 대상으로 ▲망상적 아첨 ▲장기 사보타주 ▲자기 보존 ▲자기 선호 편향 등 4가지 정렬 관련 행동을 평가했다.

‘제미나이 2.5 프로’는 망상적 아첨 항목에서 0.88점을 기록하며 높은 위험 행동 노출
‘클로드 오퍼스 4.5’는 동일 항목에서 0.00점으로 안전성 입증
인간 평가와의 상관계수 0.86(클로드 오퍼스 4.1) 기록하며 신뢰도 검증 완료

커뮤니티 기반 안전성 검증 도구 진화

블룸은 MIT 라이선스로 깃허브에 공개되었으며, 초기 사용자들은 이미 탈옥 취약점 평가·하드코딩 테스트·평가 인식도 측정 등에 활용하고 있다. 다만 평가 모델 자체의 편향성 문제 등 ‘블랙박스’ 우려가 제기되며, 오픈소스 특성상 연구 커뮤니티의 지속적 검증이 필요하다는 평가다.

🔍 블룸 깃허브 저장소

이번 도구 출시는 앤트로픽이 최근 발표한 ‘감사 에이전트’와 함께 AI 정렬 기술 분야에서 선도적 역할을 강화하겠다는 의지를 보여준다. 특히 인간 평가자와의 높은 일치도(최대 0.86)는 실제 모델 합격/불합격 판단에 블룸을 활용할 수 있는 가능성을 열었다는 점에서 의미가 크다.

링크