发布了文章2015-08-02
当人们把越来越多的大数据存储在HDFS或者AWS的S3上,通常下一个问题是如何让全公司范围的员工能够方便的查询这些数据。一个选项是建立一个SQL-on-Hadoop系统,让用户使用SQL或者类SQL语言来查询数据,但是这些SQL-on-Hadoop系统往往比较复杂,需要一定的开发和维护工...
发布了文章2015-07-13
大数据一般人听着比较复杂,觉得可能需要很大成本来部署和实施。幸运地是市面上已经有一些云服务来帮助我们让大数据变得更简单。另外,如果你选择合适的开源工具,也往往会使你的大数据之路起到事半功倍的效果。下面会列出实用并且较低成本的大数据实施系统,供参考。
发布了文章2015-06-15
80/20法则是计算机领域经常见到的现象,比如一个软件80%的时间只是在运行其中20%的代码,或者计算机芯片CPU只有20%的时间在做计算,其他80%的时间在休眠或者等待其他操作。
发布了文章2015-05-27
随着Hadoop的流行,越来越多的企业把数据存储在Hadoop上,或者Non-SQL数据库上,随之相关的数据处理技术也从一开始的Map Reduce一统江湖,到现在各种技术竞相出现。最新的趋势是,大家普遍希望能够快速得到查询结果,做交互式查询,同时也希望传统的BI(Business Inte...
发布了文章2015-05-03
本人前一篇文章总结了美国现阶段大数据创业公司的技术或产品特点,本来想加上它们的市值或者公开可查询到的融资情况,但是考虑到篇幅太大,就另外作了这篇文章,单独总结各公司的融资情况。
回答了问题2015-05-03
可以参考这篇博客,在Windows下编译和安装Hadoop:[链接] 不知道国内能不能访问blogspot.com,不能的话可以留下email,我可以下载下来发给你。
回答了问题2015-05-03
我在用Hadoop 2.4,还比较不错,一直还没发现大问题。最新的Hadoop已经到2.7了,不过不建议产品环境下用2.7。
回答了问题2015-05-03
如果数据量非常大,可以试着直接存放在Hadoop或者NonSQL数据库,比如Cassandra。然后在这基础上使用一些SQL on Hadoop的方案去查询数据,比如Spark,或者Impala等。也有个中国人做的开源产品Apache Kylin,可以一看。
回答了问题2015-05-03
不知道你用什么数据库,是否支持流模式返回数据(streaming)?数据量大的话,适合使用streaming模式,这样数据可以一边执行一边返回数据,不会将所有数据都缓存在内存里,从而减轻服务器压力。
发布了文章2015-04-30
其它还有很多提供商务数据分析,可视化报表,大数据平台的公司,就不详细例举了,包括:Tableau, GoodData, ZoomData, SpagoBI, Pentaho, Eclipse BIRT, birst, netezza, paraccel, Ayasdi, Trifecta, Clearstory, Alpine Data Labs, Altiscale, Trifacta, Splice Ma...