Wikipedia Affiliate Button

4/27/2011

dropbox storage techniques leaked by dropship


不知道會鬧多大, 看看這兩天後續發展, 

不過這才發現dropbox的技術奧祕, 以前都覺得s3這麼貴, 空間與流量都要算錢, dropbox 把東西放s3儲存, 
像我這種只用免錢的奧客又這麼多, 怎麼會合算?

那篇解釋了dropbox 的"deduplication scheme", 這個技巧真的很高明, 把所有用戶的檔案都切成4MB block, 
做sha256 hash 後當 object ID.

全世界這麼多dropbox用戶, 彼此就算不認識, 沒有進行過分享, 大家在 dropbox 裡面放的東西其實重複性很高,  
大檔一定是copy 現成的, user自己編輯出來獨一無二的文件通常是小檔, 所以, 
比對hash就知道有沒有重複. 同樣的block只要存一份 or 傳一次就好.  再加上高效率的sync機制, 有效降低了它的傳輸與儲存成本.

Jamie 之前說某dropbox對手苦於用戶大量濫用, 把整份windows目錄都丟進雲端folder, 事實上, 用這招根本整不倒dropbox, 不關多少user 把一大沱 windows 丟進來, dropbox server都只有存一份, 
其他山寨對手再怎麼低價搶客, 再怎麼容量大放送, 也只是把自己成本拖垮而已.


2 則留言:

匿名 提到...

你可能對dedupe的技術完全不了解吧.

dedupe是一般企業儲存很普遍的技術, 最常見的是Data Domain(現EMC)的機器. 價錢也不貴, 這並不是dropbox獨有的技術.

至於dedupe的問題其實還是很多. 不像是你想像的這樣.

Tim Wu 提到...

To 匿名:
我的確對deduplication沒研究, 純粹把第一次聽到的想法寫下來, 您說到問題還是很多, 方便分享給大家嗎?