歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux綜合 >> Linux資訊 >> 更多Linux

Apache日志:日志分析

  盡管日志文件中包含著大量有用的信息,但這些信息只有在經過深入挖掘之後才能夠最大限度地發揮作用。本文首先討論了能夠從日志文件獲得的信息以及不能從日志文件獲得的信息,然後介紹了幾種優秀的日志分析工具以及如何自己編程分析日志文件。     一、可以得到哪些信息(4月4日)        在這個《Apache日志》系列文章的前面幾篇中,我們討論了Apache的標准日志文件——訪問日志和錯誤日志,以及如何定制日志文件。本文接下來討論如何分析日志文件獲得寶貴的統計信息。        我們面臨的問題是,雖然日志文件中包含了大量的信息,但這些信息對於我們管理、規劃網站卻沒有多少直接的幫助。為了管理和規劃網站,我們需要知道:有多少人浏覽了網站,他們在看些什麼,停留了多長時間,他們從哪裡得知這個網站,等等。所有這些信息就隱藏於(或者可能隱藏於)日志文件之中。        就網站的經營者而言,他們還希望知道浏覽者的姓名、地址、鞋子大小,甚至還有浏覽者的信用卡號碼,但這些信息都不可能從日志文件中得到。為此,作為技術人員的我們就必須知道如何向這些經營者解釋清楚:這部分信息不僅不可能從日志文件獲得,而且要獲得這些信息的唯一方法是直接向浏覽者本人詢問,並作好被拒絕的准備。        有許多信息可以用日志文件來記錄,其中包括:       遠程機器的地址:“遠程機器的地址”和“誰在浏覽網站”差不多,但並不等同。具體地說,遠程機器的地址告訴我們浏覽者來自何方,比如它可能是buglet.rcbowen.com或者proxy01.aol.com。       浏覽時間:浏覽者何時開始訪問網站?從這個問題的答案中我們能夠了解不少情況。如果網站的大多數浏覽者都在早上9:00和下午4:00之間訪問網站,那麼可以相信網站的浏覽者大多數總在工作時間進行訪問;如果訪問記錄大多出現在下午7:00到午夜之間,我們可以肯定浏覽者一般在家裡上網。 當然,從單個訪問記錄能夠得到的信息非常有限,但如果從數千個訪問記錄出發,我們就可以得到非常有用和重要的統計信息。          用戶所訪問的資源:網站的哪些部分最受用戶歡迎?這些最受歡迎的部分就是我們應該繼續加以發展的部分。網站的哪些部分總是受到冷落?網站中這些受到冷落的部分或許隱藏得太深,或許它們確實沒有什麼意思,此時我們就得想辦法加以改進。當然,網站還有的內容,比如法律上的聲明,雖然很少有人訪問,但卻不應該隨便地改動它們。       無效鏈接:當然,日志文件還能夠告訴我們哪些東西不能按照我們所想象地運行。網站中是否存在錯誤的鏈接?其他網站鏈接過來時有沒有搞錯URL?是否存在不能正常運行的CGI程序?是否有搜索引擎檢索程序每秒發出數千個請求,從而影響了本網站的正常服務?這些問題的答案都可以從日志文件找到線索。




Copyright © Linux教程網 All Rights Reserved