Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan-Tutorial Python-php.cn

1 Tiga model utama dan sepuluh algoritma yang biasa digunakan [Pengenalan]

1-1 Tiga model utama

Model ramalan: Ramalan rangkaian saraf, ramalan kelabu, ramalan interpolasi terpasang (regresi linear), ramalan siri masa, ramalan rantai Markov, ramalan persamaan pembezaan, model logistik, dsb. Medan aplikasi: Ramalan penduduk, ramalan pertumbuhan pencemaran air, ramalan penyebaran virus, kebarangkalian memenangi persaingan
Ramalan, ramalan pendapatan bulanan, ramalan jualan, ramalan pembangunan ekonomi, dsb. dalam industri, pertanian, perdagangan dan lain-lain ekonomi Ia mempunyai pelbagai aplikasi dalam bidang alam sekitar, sosial dan ketenteraan.

Model pengoptimuman: Model perancangan (pengaturcaraan matlamat, pengaturcaraan linear, pengaturcaraan tak linear, pengaturcaraan integer, pengaturcaraan dinamik), model teori graf, model teori baris gilir, model rangkaian saraf, algoritma pengoptimuman moden ( Algoritma genetik, algoritma penyepuhlindapan simulasi, algoritma koloni semut, algoritma carian tabu) dan sebagainya. Medan aplikasi: Masalah laluan terpendek untuk kurier menghantar penghantaran ekspres, masalah pengoptimuman penjadualan sumber air, lebuh raya
masalah stesen tol keluar, masa dan pemilihan laluan untuk peninjauan udara dalam operasi ketenteraan, masalah pemilihan tapak logistik , Perancangan susun atur kawasan komersial dan bidang lain.

Model penilaian: Kaedah penilaian komprehensif kabur, proses hierarki analitik, kaedah analisis kelompok, kaedah penilaian analisis komponen utama,
Kaedah penilaian komprehensif kelabu, kaedah penilaian rangkaian saraf tiruan, dsb. . Bidang aplikasi: Penilaian sumber air serantau, penilaian risiko projek pemuliharaan air, penilaian tahap pembangunan bandar, penilaian jurulatih bola sepak, penilaian pasukan bola keranjang, penilaian ekologi air, penilaian keselamatan empangan, penilaian kestabilan cerun

1-2 Sepuluh teratas algoritma yang biasa digunakan

Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

2 Panda untuk analisis data python 2-1 Apakah itu panda

Sumber terbuka Pustaka kelas Python: digunakan untuk analisis data, pemprosesan data, visualisasi data

Prestasi tinggi
Struktur data yang mudah digunakan
·Alat analisis penggunaan yang mudah digunakan

Mudah digunakan dengan perpustakaan lain:

numpy: untuk pengkomputeran saintifik
scikit-belajar: untuk pembelajaran mesin

2-2 panda membaca Dapatkan fail

&#39;&#39;&#39;
当使用Pandas做数据分析时，需要读取事先准备好的数据集，这是做数据分析的第一步。
Pandas提供了多种读取数据的方法：
read_csv()      用于读取文本文件
read_excel()    用于读取文本文件
read_json()     用于读取json文件
read_sql_query()读取sql语句的

通用流程：
1-导入库import pandas as pd
2-找到文件所在位置（绝对路径=全称）（相对路径=和程序在同一个文件夹中的路径的简称）
3-变量名=pd.读写操作方法（文件路径，具体的筛选条件，...）
./  当前路径
../ 上一级
将csv中的数据转换为DataFrame对象是非常便捷。和一般文件读写不一样，它不需要你做打开文件、
读取文件、关闭文件等操作。相反，您只需要一行代码就可以完成上述所有步骤，并将数据存储在
DataFrame中。

&#39;&#39;&#39;
import pandas as pd
# 输入参数：数据输入的路径【可以是文件路径，可以是URL，也可以是实现read方法的任意对象。】
df = pd.read_csv(&#39;s&#39;)
print(df, type(df))
# Pandas默认使用utf-8读取文件
print()
import pandas as pd

lxw = open(r"t.csv", encoding=&#39;utf-8&#39;)
print(pd.read_csv(lxw))
print()
import os

# 打印当前目录
print(os.getcwd())

Salin selepas log masuk

Pautan laman web rasmi pengetahuan berkaitan

Panda perlu membaca data jenis jadual terlebih dahulu, dan kemudian menganalisisnya

Versi pembelajaran terperinci:

# 1:
import pandas as pd
df = pd.read_csv(&#39;nba.csv&#39;)
print(df)
# 2:
import pandas as pd
df = pd.read_csv(&#39;nba.csv&#39;)
# to_string() 用于返回 DataFrame 类型的数据，如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 ... 代替(如上）
print(df.to_string())
# 3:
import pandas as pd

# 三个字段 name, site, age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]
# 字典
dict = {&#39;name&#39;: nme, &#39;site&#39;: st, &#39;age&#39;: ag}
df = pd.DataFrame(dict)
# 保存 dataframe
print(df.to_csv(&#39;site.csv&#39;))
# 4:
import pandas as pd

df = pd.read_csv(&#39;正解1.csv&#39;)
# head( n ) 方法用于读取前面的 n 行，如果不填参数 n ，默认返回 5 行
# print(df.head())
# df.head(50).to_csv(&#39;site4.csv&#39;)
df.tail(10).to_csv(&#39;site4.csv&#39;)
print("over!")
# 5:
import pandas as pd
df = pd.read_csv(&#39;nba.csv&#39;)
# 读取前面 10 行
print(df.head(10))
# 6:
import pandas as pd
df = pd.read_csv(&#39;nba.csv&#39;)
# tail( n ) 方法用于读取尾部的 n 行，如果不填参数 n ，默认返回 5 行，空行各个字段的值返回 NaN
print(df.tail())
# 7:
import pandas as pd

df = pd.read_csv(&#39;nba.csv&#39;)
#  读取末尾 10 行
print(df.tail(10))
# 8:
import pandas as pd
df = pd.read_csv(&#39;正解1.csv&#39;)
# info() 方法返回表格的一些基本信息
print(df.info())
# non-null 为非空数据，我们可以看到上面的信息中，总共 458 行，College 字段的空值最多

Salin selepas log masuk

Semua fail csv dan excel boleh diekstrak daripada sumber, dan fail yang tidak tersedia boleh ditambah sendiri!
Petua: Perpustakaan panda mesti dipasang terlebih dahulu. [Arahan pemasangan terminal: pip install panda]

import pandas as pd
lxw = pd.read_csv(&#39;nba.csv&#39;)
# 查看前几行数据
print(lxw.head())
# 查看索引列
print(lxw.index)
# 查看列名列表
print(lxw.columns)
# 查看数据的形状（返回行、列数）
print(lxw.shape)
# 查看每列的数据类型
print(lxw.dtypes)
print()
# 读取txt文件，自己指定分隔符、列名
fpath = &#39;D:\PyCharm\数学建模大赛\数据分析-上-2\Python成绩.csv&#39;

lxw = pd.read_csv(
    fpath,
    sep=&#39;,&#39;,
    header=None,
    names=[&#39;name&#39;, &#39;Python-score&#39;]
)
# print(lxw)
lxw.to_csv(&#39;Python成绩2.csv&#39;)
# 读取excel文件：
import pandas as pd
lxw = pd.read_excel(&#39;暑假培训学习计划.xls&#39;)
print(lxw)

Salin selepas log masuk

Nota: Jika terdapat ralat dalam [Membaca fail excel] pada penghujung, kemudian pasang ia di terminal pip install xlrd .

struktur data 2-3 panda

&#39;&#39;&#39;
1-Series：  一维数据，一行或一列
【Series是一种类似于一维数组的对象，它由一组数据（不同数据类型）以		    及一组与之相关的数据标签（即索引）组成】
2-DataFrame:二维数据，整个表格，多行多列
&#39;&#39;&#39;
import pandas as pd
# 1-1仅用数据列表即可产生最简单的Series
lxw = pd.Series([1, &#39;a&#39;, 5.2, 6])
print(lxw)      # 运行结果解说：左边为索引，右边为数据
# 获取索引
print(lxw.index)
# 获取数据
print(lxw.values)
print()
# 1-2 创建一个具有索引标签的Series
lxw2 = pd.Series([5, &#39;程序人生6&#39;, 666, 5.2], index=[&#39;sz&#39;, &#39;gzh&#39;, &#39;jy&#39;, &#39;xy&#39;])
print(lxw2)
print(lxw2.index)
# 写入文件当中
lxw2.to_csv(&#39;gzh.csv&#39;)
print()
# 1-3 使用过Python字典创建Series
lxw_ej = {&#39;python&#39;: 390, &#39;java&#39;: 90, &#39;mysql&#39;: 90}
lxw3 = pd.Series(lxw_ej)
print(lxw3)
# 1-4 根据标签索引查询数据
print(lxw3[&#39;java&#39;])
print(lxw2[&#39;gzh&#39;])
print(lxw2[[&#39;gzh&#39;, &#39;jy&#39;]])
print(type(lxw2[[&#39;gzh&#39;, &#39;jy&#39;]]))
print(lxw[2])
print(type(lxw[2]))
print()
# 2 根据多个字典序列创建dataframe
lxw_cj = {
    &#39;ps&#39;: [86, 92, 88, 82, 80],
    &#39;windows操作系统&#39;: [84, 82, 88, 80, 92],
    &#39;网页设计与制作&#39;: [92, 88, 97, 98, 83]
}
df = pd.DataFrame(lxw_cj)

# print(df)
# df.to_excel(&#39;lxw_cj.xlsx&#39;)      # 须提前安装好openxlsx,即pip install openpyxl[可在终端安装]
print("over!")
print(df.dtypes)
print(df.columns)
print(df.index)
print()
# 3-从DataFrame中查询Series
&#39;&#39;&#39;
·如果只查询一行、一列的话，那么返回的就是pd.Series
·如果查询多行、多列时，返回的就是pd.DataFrame

&#39;&#39;&#39;
# 一列：
print(df[&#39;ps&#39;])
print(type(df[&#39;ps&#39;]))
# 多列：
print(df[[&#39;ps&#39;, &#39;windows操作系统&#39;]])
print(type(df[[&#39;ps&#39;, &#39;windows操作系统&#39;]]))

print()
# 一行：
print(df.loc[1])
print(type(df.loc[1]))
# 多行：
print(df.loc[1:3])
print(type(df.loc[1:3]))

Salin selepas log masuk

Peningkatan DataFrame

2-3-1 struktur data panda DataFrame

# DataFrame数据类型
&#39;&#39;&#39;
DataFrame是Pandas的重要数据结构之一，也是在使用数据分析过程中最常用的结构之一，
可以这么说，掌握了Dataframe的用法，你就 拥有了学习数据分析的基本能力。

&#39;&#39;&#39;
# 认识Dataframe结构：
&#39;&#39;&#39;
Dataframe是一个表格型的数据结构，既有行标签，又有列标签，她也被称异构数据表，所谓
异构，指的是表格中每列的数据类型可以不同，比如可以是字符串、整型或者浮点型等。

Dataframe的每一列数据都可以看成一个Series结构，只不过，Dataframe为每列数据值增加了
一个标签。因此Dataframe其实是从Series的基础上演变而来，并且他们有相同的标签，在数据分析
任务中Dataframe的应用非常广泛，因此描述数据的更为清晰、直观。

同Series一样，Dataframe自带行标签索引，默认为“隐式索引”。
当然，你也可以用“显式索引”的方式来设置行标签。

&#39;&#39;&#39;
# 特点：
&#39;&#39;&#39;
Dataframe   每一列的标签值允许使用不同的数据类型；
Dataframe   是表格型的数据结构，具有行和列；
Dataframe   中的每个数据都可以被修改
Dataframe   结构的行数、列数允许增加或者删除
Dataframe   有两个方向的标签轴，分别是行标签和列标签
Dataframe   可以对行和列执行算术运算

&#39;&#39;&#39;
# DataFrame 构造方法如下：

# pandas.DataFrame( data, index, columns, dtype, copy)
&#39;&#39;&#39;
data：输入的数据，可以是ndarray, series, list, dict, 标量以及一个Dataframe；

index：行标签，如果没有传递index值，则默认行标签是RangeIndex(0, 1, 2, ..., n)代表data的元素个数；

columns：列标签，如果没有传递columns值，则默认列标签是RangIndex（0, 1, 2, ..., n)；

dtype:要强制的数据类型，只允许使用一种数据类型，如果没有，自行推断；

copy:从输入复制数据。对于dict数据, copy=True, 重新复制一份。对于Dataframe或者ndarray输入，类似于copy=False,它用的是试图。

&#39;&#39;&#39;
# 1: 使用普通列表创建
import pandas as pd
lxw = [5, 2, 1, 3, 1, 4]
df = pd.DataFrame(lxw)
df2 = pd.Series(lxw)
print(df)
print(df2)
print()
# 2:使用嵌套列表创建
import pandas as pd
lxw = [[&#39;lxw&#39;, 21], [&#39;cw&#39;, 23], [&#39;tzs&#39;, 22]]
df3 = pd.DataFrame(lxw, columns=[&#39;Name&#39;, &#39;Age&#39;])
print(df3)
# 指定数值元素的数据类型为float
# 注：dtype只能设置一个，设置多个列的数据类型，需要使用其他公式
print()
# 分配列标签注意点
import pandas as pd
# 分配列标签
lxw2 = [[&#39;lxw&#39;, &#39;男&#39;, 21, 6666], [&#39;cw&#39;, &#39;女&#39;, 22, 6520], [&#39;ky&#39;, &#39;女&#39;, 20, 5200], [&#39;tzs&#39;, &#39;男&#39;, 22, 6523]]
# int满足某列特征，会自动使用，不满足，则会自动识别
df = pd.DataFrame(lxw2, columns=[&#39;Name&#39;, &#39;xb&#39;, &#39;age&#39;, &#39;gz&#39;], dtype=int)
print(df)
print(df[&#39;Name&#39;].dtype)
print()
# ~字典创建：
import pandas as pd
lxw3 = [{&#39;a&#39;: 1, &#39;b&#39;: 2}, {&#39;a&#39;: 5, &#39;b&#39;: 8, &#39;c&#39;: 9}]
df = pd.DataFrame(lxw3, index=[&#39;first&#39;, &#39;second&#39;])
print(df)
# 注：如果其中某些元素缺失，也就是字典的key无法找到对应的value将使用NaN代替
print()
# 使用列表嵌套字典创建一个DataFrame对象
import pandas as pd
# lxw3
df1 = pd.DataFrame(lxw3, index=[&#39;first&#39;, &#39;second&#39;], columns=[&#39;a&#39;, &#39;b&#39;])
df2 = pd.DataFrame(lxw3, index=[&#39;first&#39;, &#39;second&#39;], columns=[&#39;a&#39;, &#39;b2&#39;])
print(df1)
print("============================================")
print(df2)

Salin selepas log masuk

rrree

2-3 - 1 Siri struktur data Pandas

import pandas as pd
data = [[&#39;lxw&#39;, 10], [&#39;wink&#39;, 12], [&#39;程序人生6&#39;, 13]]
df = pd.DataFrame(data, columns=[&#39;Site&#39;, &#39;Age&#39;], dtype=float)
print(df)
# 1：使用 ndarrays 创建
import pandas as pd
data = {&#39;Site&#39;: [&#39;lxw&#39;, &#39;程序人生6&#39;, &#39;wink&#39;], &#39;Age&#39;: [10, 12, 13]}
df = pd.DataFrame(data)
print(df)
# 2：还可以使用字典（key/value），其中字典的 key 为列名:
import pandas as pd
data = [{&#39;a&#39;: 1, &#39;b&#39;: 2}, {&#39;a&#39;: 5, &#39;b&#39;: 10, &#39;c&#39;: 20}]
df = pd.DataFrame(data)
print(df)
# 没有对应的部分数据为 NaN
# 3：Pandas 可以使用 loc 属性返回指定行的数据，如果没有设置索引，第一行索引为 0，第二行索引为 1，以此类推：
import pandas as pd
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}
# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)
# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])
print(df.loc[2])
# 注意：返回结果其实就是一个 Pandas Series 数据。
# 也可以返回多行数据，使用 [[ ... ]] 格式，... 为各行的索引，以逗号隔开：

Salin selepas log masuk

2-4 Data pertanyaan

# Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。
&#39;&#39;&#39;
Series 由索引（index）和列组成，函数如下：
pandas.Series( data, index, dtype, name, copy)
参数说明：
data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

&#39;&#39;&#39;
import pandas as pd
lxw = [1, 2, 3]
myvar = pd.Series(lxw)
print(myvar)
print()
# 如果没有指定索引，索引值就从 0 开始，我们可以根据索引值读取数据
print(myvar[1])
print()
import pandas as pd
lxw = ["Google", "Runoob", "Wiki"]
myvar2 = pd.Series(lxw, index=[&#39;x&#39;, &#39;y&#39;, &#39;z&#39;])
print(myvar2)
print()
# 根据索引值读取数据:
print(myvar2[&#39;y&#39;])
print()
# 也可以使用 key/value 对象，类似字典来创建 Series
import pandas as pd
lxw = {1: "Google", 2: "Runoob", 3: "Wiki"}
myvar3 = pd.Series(lxw)
print(myvar3)
print()
# 只需要字典中的一部分数据，只需要指定需要数据的索引即可
myvar3 = pd.Series(lxw, index=[1, 2])
print(myvar3)
print()
# 设置 Series 名称参数
import pandas as pd
lxw = {1: "Google", 2: "Runoob", 3: "Wiki"}
myvar4 = pd.Series(lxw, index=[1, 3], name="lxw-pro")
print(myvar4)

Salin selepas log masuk

# Pandas查询数据的四种方法：
&#39;&#39;&#39;
1-df.loc方法，根据行、列的标签值查询
2-df.iloc方法，根据行、列的数字位置查询
3-df.where方法
4-df.query方法
建议：.loc既能查询，又能覆盖写入，强烈推荐！

&#39;&#39;&#39;
# Pandas使用df.loc查询数据的方法：
&#39;&#39;&#39;
1-使用单个label值查询数据
2-使用值列表批量查询
3-使用数值区间进行范围查询
4-使用条件表达式查询
5-调用函数查询

&#39;&#39;&#39;
# 注：以上方法，即适用于行，也使用于列
import pandas as pd
df = pd.read_csv(&#39;sites.csv&#39;)
# print(df.head(10))
df.set_index(&#39;create_dt&#39;, inplace=True)
# print(df.index)
a = df.index
# 去重->转为列表->排顺序
qc = sorted(list(set(a)))
# print(qc)

Salin selepas log masuk

astype() penjelasan pengetahuan berkaitan:

# 替换掉利润率当中的后缀%
df.loc[:, &#39;lrl&#39;] = df[&#39;lrl&#39;].str.replace("%", "").astype(&#39;int32&#39;)   # astype()    对数据类型进行转换

Salin selepas log masuk

di sini Apabila dijalankan , ralat akan dilaporkan:

Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

Saya mencari dalam talian untuk menyelesaikan masalah yang serupa kemudian

Hasil yang dijalankan adalah seperti berikut:

Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

&#39;&#39;&#39;
Python中与数据类型相关函数及属性有如下三个：type/dtype/astype
type()    返回参数的数据类型    
dtype    返回数组中元素的数据类型    
astype()    对数据类型进行转换    
你可以使用 .astype() 方法在不同的数值类型之间相互转换。a.astype(int).dtype # 将 a 的数值类型从 float64 转换为 int
&#39;&#39;&#39;

Salin selepas log masuk

2-4-1 Gunakan satu nilai label untuk menanyakan data

# 替换掉利润率当中的后缀%df[&#39;lrl&#39;] = df[&#39;lrl&#39;].map(lambda x: x.rstrip(&#39;%&#39;))print(df)

Salin selepas log masuk

Hasil larian adalah seperti berikut:

Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan rreee

Hasil larian adalah seperti berikut:

Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

2-4-2 Gunakan kumpulan senarai nilai pertanyaan

# 查询数据类型print(df.dtypes)# 打印文件前几行print(df.head())

Salin selepas log masuk

Keputusan larian adalah seperti berikut:

提示：图有点长，故只截取了部分
Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

print(df.loc[&#39;2016-12-02&#39;, &#39;yye&#39;])   # 得到指定时间里相对应的的单个值

Salin selepas log masuk

Keputusan separa larian adalah seperti berikut:

Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

2-4-3 Gunakan selang berangka untuk pertanyaan julat

# 行index按区间：print(df.loc[&#39;2016-12-02&#39;: &#39;2016-12-08&#39;], [&#39;yye&#39;])

Salin selepas log masuk

运行部分结果如下：
Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

# 列index按区间：print(df.loc[&#39;2016-12-12&#39;, &#39;yye&#39;: &#39;lrl&#39;])

Salin selepas log masuk

运行部分结果如下：
Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

# 行和列都按区间查询：print(df.loc[&#39;2016-11-30&#39;: &#39;2016-12-02&#39;, &#39;sku_cnt&#39;: &#39;lrl&#39;])

Salin selepas log masuk

运行部分结果如下：
Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

2-4-4 使用条件表达式查询

# 简单条件查询，营业额低于3的列表print(df.loc[df[&#39;yye&#39;] < 3, :])# 可观察营业额的boolean条件print(df[&#39;yye&#39;] < 3)

Salin selepas log masuk

# 复杂条件查询：print(df.loc[(df[&#39;yye&#39;] < 5) & (df[&#39;yye&#39;] > 2) & (df[&#39;sku_cnt&#39;] > 1), :])

Salin selepas log masuk

运行部分结果如下：
Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

# 再次观察这里的boolean条件print((df[&#39;yye&#39;] < 5) & (df[&#39;yye&#39;] > 2) & (df[&#39;sku_cnt&#39;] > 1))

Salin selepas log masuk

运行部分结果如下：
Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

2-4-5 调用函数查询

# 直接写lambda表达式print(df.loc[lambda df: (df[&#39;yye&#39;] < 4) & (df[&#39;yye&#39;] > 2), :])

Salin selepas log masuk

运行部分如果如下：
Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan

# 函数式编程的本质：# 函数本身可以像变量一样传递def my_query(df):    return df.index.str.startswith(&#39;2016-12-08&#39;)print(df.loc[my_query, :])

Salin selepas log masuk

遇到的问题：

1、虽说三大模型十大算法【简介】讲的很是明确，可在网上要查询相关模型或者算法还是很杂乱的，不是很清楚自己适合那一版本。
2、学习pandas过程当中遇到查询数据时遇【替换掉利润率当中的后缀%】出现差错，后面通过网上查询解决问题。

Atas ialah kandungan terperinci Penemuan tiga model Python utama dan sepuluh contoh algoritma yang biasa digunakan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!