데이터 분석에 사용되는 인기 Python 라이브러리인 Pandas에서 다음과 같은 상황이 발생할 수 있습니다. DataFrame에는 문자열 값처럼 보이는 열이 포함되어 있지만 dtype 속성은 이를 "객체"로 나타냅니다. 이 예외 현상은 객체를 문자열로 명시적으로 변환한 후에 발생할 수 있습니다.
객체 데이터 유형의 이유:
혼란은 데이터를 저장하는 NumPy 배열의 기본 구현에서 비롯됩니다. 데이터프레임. NumPy 배열에는 동일한 크기(바이트)의 요소가 필요합니다. 정수(int64) 및 부동 소수점 숫자(float64)와 같은 기본 유형의 경우 크기는 고정됩니다(8바이트). 그러나 문자열에는 가변 길이가 있습니다.
이러한 가변성을 수용하기 위해 Pandas는 문자열 바이트를 배열에 직접 저장하지 않습니다. 대신, 문자열 객체에 대한 포인터를 포함하는 "객체" 배열을 만듭니다. 결과적으로 dtype은 "object"가 됩니다.
예:
다음 DataFrame을 고려하세요.
<code class="python">df = pd.DataFrame({ "id": [0, 1, 2], "attr1": ["foo", "bar", "baz"], "attr2": ["100", "200", "300"], })</code>
dtypes를 확인하는 경우 열을 보면 attr2가 dtype "object"인 것을 알 수 있습니다:
<code class="python">print(df.dtypes) # Output: # id int64 # attr1 object # attr2 object</code>
문자열로 변환:
attr2를 문자열로 명시적으로 변환하면 Pandas는 이를 수행합니다. 기본 저장 메커니즘을 변경하지 마세요:
<code class="python">df["attr2"] = df["attr2"].astype(str)</code>
따라서 attr2는 dtype "객체"를 유지합니다.
추가 정보:
위 내용은 내 Pandas DataFrame에 \'object\' dtype이 포함된 문자열 열이 있는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!