Anthropic의 Claude 3.5 Sonnet을 활용한 보고서 생성: 두 가지 방법의 비교
안녕하세요 여러분! 저는 브라질 부동산 회사 Pilar의 공동 창립자이자 CTO인 Raphael입니다. Pilar는 낮은 성공 수수료 모델을 사용하여 부동산 중개인 및 중개 회사에 소프트웨어 및 서비스를 제공합니다. 높은 선불 수수료를 청구하는 대신, 우리는 성공적인 거래마다 소액의 수수료를 받아 우리의 성공을 고객의 성공과 직접 연결합니다. 20명의 기술자로 구성된 우리 팀은 끊임없이 혁신하고 있으며 최신 제품은 주택 구입자와 부동산 중개인에게 최고의 경험을 제공하도록 설계된 새로운 부동산 포털인 Pilar Homes입니다.
이 게시물에서는 인공 지능을 사용하여 보고서, 특히 Anthropic의 Claude 3.5 Sonnet을 생성한 경험을 공유하고 두 가지 방법을 비교해 보겠습니다.
작업 처리에 대한 우리의 철학은 향후 기사에서 자세히 설명하겠지만(계속 지켜봐 주시기 바랍니다!) 간단히 말해서 이러한 작업은 Jira 티켓으로 "기술 헬프 데스크" 게시판에 올라갑니다. 보고서 생성은 그러한 작업 중 하나이며 대부분의 작업은 엔지니어가 해결하는 데 약 30분 정도 소요되며, 복잡한 보고서는 거의 몇 시간 이상 걸리지 않습니다. 그러나 상황이 변하고 있습니다. 우리가 한두 명의 파트너와 함께 시작한 부티크 브랜드는 더 큰 에이전시로 확장되고 있으며 업계의 기존 플레이어와 더 많은 계약을 체결하고 있습니다. 엔지니어 시간을 늘리면 증가하는 보고 요구 사항을 해결할 수 있지만 AI 에이전트를 탐색하고 실제 환경에서 아키텍처 패턴을 배울 수 있는 기회를 보았습니다.
초기 접근 방식에서는 도구를 Claude의 3.5 Sonnet 모델에 노출하여 데이터베이스 쿼리를 수행하고 검색된 문서를 CSV로 변환하고 결과를 .csv 파일에 쓸 수 있도록 했습니다.
위의 블로그 게시물에서 많은 영감을 받은 구조는 다음과 같습니다.
<code># 每个collection对象描述一个MongoDB集合及其字段 # 这有助于Claude理解我们的数据模式 COLLECTIONS = [ { 'name': 'companies', 'description': 'Companies are the real estate brokerages. If the user provides a code to filter the data, it will be a company code. The _id may be retrieved by querying the company with the given code. Company codes are not used to join data.', 'fields': { '_id': 'The ObjectId is the MongoDB id that uniquely identifies a company document. Its JSON representation is \"{"$oid": "the id"}\"', 'code': 'The company code is a short and human friendly string that uniquely identifies the company. Never use it for joining data.', 'name': 'A string representing the company name', } }, # 此处之后描述了更多集合,但思路相同... ] # 这是client.messages.create的“system”参数 ROLE_PROMPT = "You are an engineer responsible for generating reports in CSV based on a user's description of the report content" # 这是“user”消息 task_prompt = f"{report_description}.\nAvailable collections: {COLLECTIONS}\nCompany codes: {company_codes}\n.Always demand a company code from the user to filter the data -- the user may use the terms imobiliária, marca, brand or company to reference a company. If the user wants a field that does not exist in a collection, don't add it to the report and don't ask the user for the field." </code>
report_description은 argparse를 통해 읽은 명령줄 인수일 뿐이며, company_codes는 데이터베이스에서 검색되어 모델에 노출되므로 어떤 회사가 존재하는지, 사용자 입력에 어떤 회사 코드가 있는지 알 수 있습니다. 예: (MO - 모자이크 주택, NV - Nova Real Estate 등).
모델에 사용할 수 있는 도구에는 find 및 docs2csv가 있습니다.
<code>def find(collection: str, query: str, fields: list[str]) -> Cursor: """Find documents in a collection filtering by "query" and retrieving fields via projection""" return db.get_collection(collection).find(query, projection={field: 1 for field in fields}) def docs2csv(documents: list[dict]) -> list[str]: """ Convert a dictionary to a CSV string. """ print(f"Converting {len(documents)} documents to CSV") with open('report.csv', mode='w', encoding='utf-8') as file: writer = csv.DictWriter(file, fieldnames=documents[0].keys()) writer.writeheader() writer.writerows(documents) return "report.csv"</code>
Claude는 find 기능을 호출하여 데이터베이스에 대해 잘 구조화된 쿼리와 예측을 수행하고 docs2csv 도구를 사용하여 작은 CSV 보고서(500행 미만)를 생성할 수 있었습니다. 그러나 더 큰 보고서는 max_tokens 오류를 유발합니다.
토큰 사용 패턴을 분석한 결과 토큰 소비의 대부분이 모델을 통한 개인 기록 처리에서 발생한다는 사실을 깨달았습니다. 이로 인해 우리는 Claude가 데이터를 직접 처리하는 대신 처리 코드를 생성하도록 하는 또 다른 접근 방식을 모색하게 되었습니다.
max_tokens 제한을 해결하는 것은 기술적으로 어렵지 않지만 문제 해결에 대한 접근 방식을 재고해야 합니다.
해결책? Claude가 AI를 통해 각 문서를 처리하는 대신 CPU에서 실행될 Python 코드를 생성하게 하세요.
캐릭터와 퀘스트 프롬프트를 수정하고 도구를 제거해야 했습니다.
다음은 리포트 생성 코드의 요지입니다.
보고서를 생성하는 명령은 다음과 같습니다.
<code># 每个collection对象描述一个MongoDB集合及其字段 # 这有助于Claude理解我们的数据模式 COLLECTIONS = [ { 'name': 'companies', 'description': 'Companies are the real estate brokerages. If the user provides a code to filter the data, it will be a company code. The _id may be retrieved by querying the company with the given code. Company codes are not used to join data.', 'fields': { '_id': 'The ObjectId is the MongoDB id that uniquely identifies a company document. Its JSON representation is \"{"$oid": "the id"}\"', 'code': 'The company code is a short and human friendly string that uniquely identifies the company. Never use it for joining data.', 'name': 'A string representing the company name', } }, # 此处之后描述了更多集合,但思路相同... ] # 这是client.messages.create的“system”参数 ROLE_PROMPT = "You are an engineer responsible for generating reports in CSV based on a user's description of the report content" # 这是“user”消息 task_prompt = f"{report_description}.\nAvailable collections: {COLLECTIONS}\nCompany codes: {company_codes}\n.Always demand a company code from the user to filter the data -- the user may use the terms imobiliária, marca, brand or company to reference a company. If the user wants a field that does not exist in a collection, don't add it to the report and don't ask the user for the field." </code>
Claude가 생성한 Python 콘텐츠(잘 작동함):
<code>def find(collection: str, query: str, fields: list[str]) -> Cursor: """Find documents in a collection filtering by "query" and retrieving fields via projection""" return db.get_collection(collection).find(query, projection={field: 1 for field in fields}) def docs2csv(documents: list[dict]) -> list[str]: """ Convert a dictionary to a CSV string. """ print(f"Converting {len(documents)} documents to CSV") with open('report.csv', mode='w', encoding='utf-8') as file: writer = csv.DictWriter(file, fieldnames=documents[0].keys()) writer.writeheader() writer.writerows(documents) return "report.csv"</code>
Claude 3.5 Sonnet과 함께한 우리의 여정은 AI가 운영 효율성을 크게 향상시킬 수 있지만 성공의 열쇠는 올바른 아키텍처를 선택하는 데 있음을 보여줍니다. 코드 생성 접근 방식은 자동화의 이점을 유지하면서 직접 AI 처리보다 더 강력한 것으로 입증되었습니다.
코드 생성 방법을 통해 보고서를 올바르게 작성할 수 있을 뿐만 아니라 엔지니어가 AI의 작업을 검토할 수 있다는 점은 매우 좋습니다.
프로세스를 완전히 자동화하고, 사람의 개입을 없애고, 더 많은 양의 보고서를 처리하기 위해 여러 에이전트 인스턴스에 작업을 분산하고(각각 더 적은 수의 토큰을 처리) 시스템이 자연스럽게 발전할 것입니다. 이러한 분산 AI 시스템의 아키텍처 문제에 대해서는 AI 제품 구축에 관한 Phil Calçado의 최신 기사를 적극 권장합니다.
이 구현을 통해 얻은 주요 교훈:
위 내용은 보고서 생성을 위해 Anthropics Claude Sonnet 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!