두 대의 머신에 Spark를 구축했습니다. 그 중 하나는 마스터이자 슬레이브이고, 다른 하나는 슬레이브입니다. 두 머신 모두 독립적인 mongodb 데이터베이스를 갖추고 있습니다. 내 주요 프로그램을 사용하면 자신의 데이터베이스 내용을 계산한 다음 결과를 서버의 데이터베이스에 요약할 수 있습니다. 현재 코드가 마스터 노드에 제출됩니다. 그런데 스파크 제출 후에는 마스터 노드의 mongodb에 있는 데이터만 계산되고 다른 작업자 노드는 계산되지 않는 것 같습니다. 그 이유는 무엇입니까? 코드는 다음과 같습니다.
으아아아
직접 질문하고 답해 보세요. 그 이유는 다음과 같습니다.
으아악이 코드 줄은 드라이버가 데이터베이스를 읽은 다음 정규화된 데이터를 RDD에 로드한다는 것을 나타냅니다. 이전 설정은 127.0.0.1을 입력으로 사용하는 것이었으므로, 즉 드라이버의 mongodb에서 데이터를 읽습니다. 드라이버가 마스터에 있기 때문에 읽혀지는 데이터는 당연히 마스터의 데이터입니다.