用 Validata 去保障数据流的正确性 · Luiti - An offline task management framework.

用 Validata 去保障数据流的正确性

前言 - 《使用 Luiti 来构建数据仓库》是关于大数据处理的实战经验总结的系列文章，面向的读者范围是对数据处理有一年以上经验的人。众所周知， Hadoop 和新兴的 Spark 是当前最流行的分布式计算和存储平台，但是均和保守死板的 Java 编程语言所绑定。 R 和 SQL 因为专业领域和表达能力的有限性而导致始终不能一统江湖。而 Python 作为一个通用的脚本语言也拥有一个完全可以与 Java 匹敌的生态环境，在 Web 开发，机器学习，文本挖掘，爬虫等方面均有众多优秀的框架和类库。并且 Python 可以作为工业胶水把前述几个技术方案融合成一个相互补充的解决方案。本系列文章的侧重点在于从 Python 的函数式特征出发，来逐步讲解一个有约定而不失灵活性的离线数据仓库处理框架是怎么来的，和可以做什么。欢迎关注 http://luiti.github.io 。

{"0":{"en":"index","zh":"Luiti 导论和视频介绍"},"1":{"en":"Processing data in a DAG way","zh":"使用 DAG 来解耦数据处理中的复杂逻辑"},"2":{"en":"The core concepts of Luigi","zh":"Luigi 的核心概念"},"3":{"en":"Luiti as a data warehouse building framework","zh":"用 Luiti 作为构建数据仓库的软件框架"},"4":{"en":"Visualization in Luiti","zh":"Luiti 里的可视化"},"5":{"en":"MapReduce and testing in Luiti","zh":"在 Luiti 里写 MapReduce 及单元测试"},"6":{"en":"Decorators in Luiti","zh":"Luiti 里的装饰器"},"7":{"en":"Luiti code architecture guide","zh":"Luiti 代码架构概览"},"8":{"en":"Use Validata to protect the correctness of the data flow","zh":"用 Validata 去保障数据流的正确性"}}