關於本站 & 爬取政策 (Crawling Policy)

本站所呈現之資料皆由大數據爬蟲 (web crawler) 爬取並自動生成文章頁面,旨在蒐集進行深度學習 (deep learning) 之所需數據,數據用於學術研究及訓練神經網路模型 (neural networks model)。

此專案立意於減少研究人員自行撰寫爬蟲及蒐集數據之不便,已爬取的 raw data 可在 Github 上自由檢閱,無收費、販賣或相關盈利用途,數據用於學術研究包括但不侷限於訓練神經網路 (neural network) 進行圖像辨識、OCR、加強機器翻譯構句、識別媒體內容、文獻分類…等。




爬取守則

爬取時嚴格遵守以下標準,以最大程度減少爬取時所造成被爬取方伺服器的資料使用,以及爬取完畢後也絕不會外連任何來自原站之資源以避免原網站伺服器需處理來自本站的請求徒增您的困擾。

  • 平均請求間隔 90 秒以上,並多選擇離峰時段
  • 不載入圖片、樣式表及外連腳本等,減少對方伺服器負擔
  • 爬取習性仿照真實瀏覽者,只爬取頁面內呈現的有效連結以盡量減少請求已經不存在的頁面
  • 不重複爬取已檢索過的頁面,包括同頁面不同的 url 參數都不會被再次爬取
  • 不 render 網頁及執行頁內 javascript,避免產生被爬取方伺服器的額外資料使用
  • 自行 host 文章內圖像,並非外連原網站,爬取完成後便不會再使用被爬取方資料以減少負載



常見問題 Q&A

我的網站被爬取有什麼好處?

本站所爬取之文章均附上原文連結及文章內有原作者的相關推廣 (粉絲專頁、其他文章) 也都會保留,此舉會被搜尋引擎視為反向連結 (backlink) 增加您的網站在搜尋排名之權重,對您原網站的 SEO 加分。且您同時也在為神經網路訓練及研究提供很好的構句學習範本,能大大的幫助相關非營利的研究人員及機構。

被爬取的文章會被營利使用嗎?

不會,本站的立意在於提供以非營利目的的研究人員及機構 (學校、學生及單純對大數據有興趣的個人…等) 一個更方便且免費的管道獲取文字構句、翻譯、分類、圖片類型的數據以鼓勵相關研究學習。以爬取的所有資料也都是免費提供,絕無任何收費營利行為。

我的文章被爬取了,我想請求撤下要怎麼辦?

本站爬取之文章均有詳細附註原文出處、作者及原網址,如果仍希望撤下內容可以聯繫我們,造成不便敬請見諒。

爬蟲程式有開源嗎?

爬蟲程式目前基礎以開發完畢,不久後將會在 GitHub 上和大家見面。

爬蟲是使用什麼語言開發的?

爬蟲以及本站前端伺服器都是 Node.js