La lecture des données peut faciliter notre travail. Il existe de nombreuses façons courantes de lire des données en python. Alors, comment Python lit-il les données ?
Utilisez le module read_csv dans pandas pour lire directement les données. (Apprentissage recommandé : Tutoriel vidéo Python)
data = pd.read_csv('/home/nw/Desktop/dataset/iris.txt',header = None)
Dans le code ci-dessus, la première partie de read_csv est le chemin où l'ensemble de données est stocké. L'en-tête suivant est très important. . Je pense souvent que l'en-tête est manquant, la quantité totale de données est réduite de 1, car la ligne de données manquante devient l'index de colonne dans le DataFrame.
Il existe également une méthode plus traditionnelle, qui consiste à ouvrir directement le fichier avec open et à retirer d'abord les informations contenues dans le fichier. Peu importe à quoi elles ressemblent, supprimez-les d'abord, puis décidez. ce que vous voulez en faire. Traitez simplement les variables extraites.
f= open('/home/nw/Desktop/dataset/iris.txt','rb') dataset = pickle.load(f) #这种方法适用于自己存取自己的数据,有时候在读取别人的数据的时候是不行的,因为别人存数据的方式不一定是用pickle.dump的方 ##式存数据的。 f = open('/home/nw/Desktop/dataset/iris.txt') ''' 注意这里的open后面最好不要加上其他的读取方式,不需要‘rb’之类的读取方式。因为在后续的数据处理中可能还需要将二进制的数 据转换成自己想要的个数。 ''' lines = f.readlines() ''' 现在lines中已经包含了所有的数据信息,我们想要得到的数据格式都可以基于lines做处理。如我读出的iris数据格式是一个列表的形 式,使用len(lines)得到列表中元素的个数是151,打印出lines,可以看到lines中每个元素都是一个字符串,并且每个字符串后面都 有'\n'的换行字符,最后一行是空行,所以最后一行是多余,并且要去掉每行中的'\n' ''' arr = [] for i in range(len(lines)): if lines[i] != '\n': arr.append(lines[i]) for i in range(len(arr)): arr[i] = arr[i].strip('\n')#将每行的'\n'脱去
Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!