我有几千只股票的csv数据,需要算所有股票在特定时间段内的收益率。
但是数据里的日期信息并不统一,有的csv到2011年就没有了之后的信息了,有的csv仅有2012年1月后的数据。
所以用pandas读取数据后,希望筛选数据一个特定时间段里的数据(比如2012-07到2012-08两个月的数据)。
但是把时间作为索引后,根本无法将没有该时间段内数据的股票给跳过,总是报错,搜了各种pandas处理时间的方法也没能解决。
以下是csv数据截图/所有csv文件都是这样的形式
import os
import pandas as pd
import numpy as np
stdic=os.listdir(os.listdir(os.getcwd())[1])
del stdic[0]
date=['2012-07','2012-08']
#计算排序期J、持有期K内的对数收益率
def creturn(data,J,K):
r=['','']
r[0] = np.log(data[date[J-1]]['Adj Close'][0]/data[date[0]]['Adj Close'][-1]) #排序期收益率
r[1] = np.log(data[date[J+K-1]]['Adj Close'][0]/data[date[J]]['Adj Close'][-1]) #持有期内收益率
return r
rank=[]
#对每一个股票csv数据进行以上的计算并放入rank列表中
for item in stdic:
fname = 'data/'+item
data=pd.read_csv(fname)
data=data.dropna()
data['Date'] = pd.to_datetime(data['Date'])
data = data[(data['Date'] >='20120701') & (data['Date'] <= '20120831')]
data=data.set_index(['Date'])
rank.append(creturn(data,1,1)[0])
报错的原因发现是,到了第10个csv文件的时候,csv里根本没有2012-07的数据,所以无法进行计算。
但是,就是无法把这种没有特定时段数据的文件跳过,不知道怎么筛选。。
希望各位大神能指点训斥一下。。。!
pd.read_csv(fname)의 데이터['Date']가 날짜형으로 변환되지 않은 것 같습니다.
그래서 비교가 문자열 비교이므로 잘못된 것입니다
방법 제공:
으아아아참고:
http://pandas.pydata.org/pand...
저도 비슷한 상황에 직면했습니다. 데이터베이스 테이블의 행 정보를 쿼리할 때 일부 행에는 A 필드가 있고 일부 행에는 A 필드가 없으면 갈 때 오류가 보고됩니다. A 필드 정보를 얻으려면 이 오류를 캡처한 다음 다시 시도하세요. A 필드 정보를 저장하는 변수에 기본값을 지정하면 건너뛰기 요구 사항을 충족할 수 있습니다. 비슷한 아이디어를 시도해 볼 수 있습니다