# 過濾是Web應用安全的基礎。它是你驗證資料合法性的過程。透過在輸入時確認對所有的資料進行過濾,你可以避免被污染(未過濾)資料在你的程式中被誤信及誤用。大多數流行的PHP應用的漏洞最終都是因為沒有對輸入進行適當過濾造成的。
我所指的濾波輸入是指三個不同的步驟:
#l 識別輸入
l 過濾輸入
#l 過濾輸入
把辨識輸入做為第一步是因為如果你不知道它是什麼,你也就無法正確地過濾它。輸入是指所有源自外部的資料。例如,所有發自客戶端的是輸入,但客戶端並不是唯一的外部資料來源,其它如資料庫和RSS推送等也是外部資料來源。
使用者輸入的資料非常容易識別,PHP以兩個超級公用陣列$_GET 和$_POST來存放用戶輸入資料。其它的輸入要難以辨識得多,例如,$_SERVER陣列中的許多元素是由客戶端所操縱的。常常很難確認$_SERVER數組中的哪些元素組成了輸入,所以,最好的方法就是把整個數組看成輸入。
在某些情況下,你把什麼當作輸入取決於你的觀點。例如,session資料被保存在伺服器上,你可能不會認為session資料是一個外部資料來源。如果你持這種觀點的話,可以把session資料的保存位置是在你的軟體的內部。意識到session的保存位置的安全與軟體的安全是聯繫在一起的事實是非常明智的。同樣的觀點可以推及到資料庫,你也可以把它看成你軟體的一部分。
一般來說,把session保存位置與資料庫看成是輸入是比較安全的,同時這也是我在所有重要的PHP應用開發中所推薦的方法。
一旦辨識了輸入,你就可以過濾它了。過濾是一個有點正式的術語,它在平時表述中有很多同義詞,例如驗證、清潔和淨化。儘管這些大家平時所用的術語稍有不同,但它們都是指的同一個處理:防止非法資料進入你的應用。
有很多種方法過濾數據,其中有一些安全性較高。最好的方法是把過濾看成是一個檢查的過程。請不要試圖好心地去修正非法數據,要讓你的用戶照你的規則去做,歷史證明了試圖修正非法數據往往會導致安全漏洞。例如,考慮一下下面的試圖防止目錄跨越的方法(存取上層目錄)。
CODE:
<?php $filename = str_replace('..', '.', $_POST['filename']); ?>
##
#
你能想到$_POST['filename']如何取值以讓$filename成為Linux系統中使用者口令檔案的路徑../../etc/passwd嗎?
答案很簡單:
.../.../etc/passwd
# 這個特定的錯誤可以透過重複替換直到找不到為止:
##CODE:#### ######## ######
<?php $filename = $_POST['filename']; while (strpos($_POST['filename'], '..') != = FALSE) { $filename = str_replace('..', '.', $filename); } ?>
译注:这一点深有体会,在实际项目曾经遇到过这样一件事,是对一个用户注册和登录系统进行更改,客户希望用户名前后有空格就不能登录,结果修改时对用户登录程序进行了更改,用trim()函数把输入的用户名前后的空格去掉了(典型的好心办坏事),但是在注册时居然还是允许前后有空格!结果可想而知。
除了把过滤做为一个检查过程之外,你还可以在可能时用白名单方法。它是指你需要假定你正在检查的数据是非法的,除非你能证明它是合法的。换而言之,你宁可在小心上犯错。使用这个方法,一个错误只会导致你把合法的数据当成是非法的。尽管不想犯任何错误,但这样总比把非法数据当成合法数据要安全得多。通过减轻犯错引起的损失,你可以提高你的应用的安全性。尽管这个想法在理论上是很自然的,但历史证明,这是一个很有价值的方法。
如果你能正确可靠地识别和过滤输入,你的工作就基本完成了。最后一步是使用一个命名约定或其它可以帮助你正确和可靠地区分已过滤和被污染数据的方法。我推荐一个比较简单的命名约定,因为它可以同时用在面向过程和面向对象的编程中。我用的命名约定是把所有经过滤的数据放入一个叫$clean的数据中。你需要用两个重要的步骤来防止被污染数据的注入:
l 经常初始化$clean为一个空数组。
l 加入检查及阻止来自外部数据源的变量命名为clean,
实际上,只有初始化是至关紧要的,但是养成这样一个习惯也是很好的:把所有命名为clean的变量认为是你的已过滤数据数组。这一步骤合理地保证了$clean中只包括你有意保存进去的数据,你所要负责的只是不在$clean存在被污染数据。
为了巩固这些概念,考虑下面的表单,它允许用户选择三种颜色中的一种;
CODE:
<form action="process.php" method="POST"> Please select a color: <select name="color"> <option value="red">red</option> <option value="green">green</option> <option value="blue">blue</option> </select> <input type="submit" /> </form>
##
在处理这个表单的编程逻辑中,非常容易犯的错误是认为只能提交三个选择中的一个。在第二章中你将学到,客户端能提交任何数据作为$_POST['color']的值。为了正确地过滤数据,你需要用一个switch语句来进行:
CODE:
<?php $clean = array( ); switch($_POST['color']) { case 'red': case 'green': case 'blue': $clean['color'] = $_POST['color']; break; } ?>
##
本例中首先初始化了$clean为空数组以防止包含被污染的数据。一旦证明$_POST['color']是red, green, 或blue中的一个时,就会保存到$clean['color']变量中。因此,可以确信$clean['color']变量是合法的,从而在代码的其它部分使用它。当然,你还可以在switch结构中加入一个default分支以处理非法数据的情况。一种可能是再次显示表单并提示错误。特别小心不要试图为了友好而输出被污染的数据。
上面的方法对于过滤有一组已知的合法值的数据很有效,但是对于过滤有一组已知合法字符组成的数据时就没有什么帮助。例如,你可能需要一个用户名只能由字母及数字组成:
CODE:
<?php $clean = array( ); if (ctype_alnum($_POST['username'])) { $clean['username'] = $_POST['username']; } ?>
##
尽管在这种情况下可以用正则表达式,但使用PHP内置函数是更完美的。这些函数包含错误的可能性要比你自已写的代码出错的可能性要低得多,而且在过滤逻辑中的一个错误几乎就意味着一个安全漏洞。
以上就是PHP安全-过滤输入的内容,更多相关内容请关注PHP中文网(www.php.cn)!
##