NoSQL 有分很多种,其中key-value NoSQL (Redis, MemcacheD, etc) 的选用相对比较清楚些,大多是当后端Data storage的cache层来用。这篇主要想请教
Column Family NoSQL (e.g. Cassandra, Hbase) 和SQL之间的选用
。其中包含一些个人的理解,若有错误的地方烦请不吝指教!
我理解上,Column Family NoSQL的schema和SQL schema大多能够互相作逻辑转换。也就是说,给一个DB,里面有很多table,table里有很多column,然后跟你说我query的型态会长怎样 (等同告诉你app layer的join要怎么做)。我们多半能把这些DB schema转成CF NoSQL的schema。反之亦然。
对single box(单一机器)来说,CF NoSQL能承受的qps比SQL要高;不过在multiple machines的情况下,可对SQL去作sharding & replicas来增加其performace和availability/reliability。这边甚至可混用cosistent hashing的架构来作SQL sharding/replication。也就是说
在多台机器可用的环境下
CF NoSQL 和 SQL 的效能
是可以作到差不多的
事实上,Facebook 开发了Cassandra,但内部用的还是用SQL 居多Lol。
回到问题, 关于选用CF
NoSQL vs SQL
, 这边分三种cases考虑。
Data非常不relational (require no join or few joins),这时用SQL 就有点浪费,可能会有不必要的overhead。