火鳥
火鳥

我是一團烤雞腿

自製全網站備份工具,歡迎使用(零資源佔用,一鍵備份)

透過Internet Archive的Wayback Machine進行網站備份,為了節省資源,我們只會備份那些未被Wayback Machine抓取過的頁面。備份之後人人共享,任何人都可以瀏覽下載。

【如何使用】

進入:https://datalabour.com/saveWeb/

  1. 找到中間的輸入框,輸入完整的包含http或https開頭的網站首頁鏈接,然後點按鈕「開始備份」即可。
  2. 同一時間最多10個備份任務,如果任務已滿,提交後會將網址存入候選列表,請過段時間再來備份。資源請有效利用,不要去備份維基百科、FB、Google、Twitter之類大型網站,因為沒有意義。
  3. 可以備份任何網站,適合未雨綢繆地保存一些舊的blog、社運網站、社區網站、獨立新聞媒體、NGO網站等等。

【它怎麼運作】

這個服務與httrack或者wget等直接將網站下載到你的本地硬碟的方式不同,我們依靠Internet Archive的Wayback Machine進行運作。

Internet Archive是全球最大的互聯網檔案館/圖書館,儲存了數以百億計的網頁。雖然過去曾遭遇火災,但因為Internet Archive出色的多地備份,而沒有任何資料損失。Internet Archive的Wayback Machine類似於Google或百度或Bing的爬蟲,會自動搜尋網路上的網站內容進行抓取,並提供給所有人訪問或下載,基本不設限制。

不過,因為資源有限,也因為Internet Archive位處美國,主要運營者都是英語使用者,Internet Archive對於中文世界,尤其是小眾的網站的備份仍有缺乏。

所以,本網站的運作方式是:我們會循環抓取(使用文本瀏覽器lynx)你提供的網站的所有頁面連結,並詢問Wayback Machine是否抓取過該頁面。如果沒有抓取過,我們會提交申請進行抓取。直到所有網站頁面都被詢問完成。

網站頁面比較簡單,沒有做前端的各種東東




CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论