2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

本文作者：楊鯉萍

2020-02-11 10:20

導語：?Github 開源項目技術圖

雷鋒網 AI 開發(fā)者按：工欲善其事必先利其器，這也是大部分開發(fā)者在日常工作中最重要開發(fā)原則。選擇與開發(fā)內容相匹配的工具，常常會使我們事半功倍。但面對人工智能的多個領域，如：機器學習、深度學習、NLP等等，多樣的工具有時也讓我們也無從選擇。

就在最近，一個基于 javascript 的可視化庫 D3js（treemap 可視化）對 json 文件生成的技術圖，給開發(fā)者提供了詳細的各領域工具清單，內容涵蓋了 11 種極具潛力的 AI 工具類型，雷鋒網 AI 開發(fā)者將其整理如下，強烈建議大家收藏~

原文鏈接：https://github.com/haggaishachar/techmap

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

目錄：
Ⅰ、經典機器學習（1-3）
Ⅱ、深度學習（4-8）
Ⅲ、強化學習（9-12）
Ⅳ、自然語言處理（13-18）
Ⅴ、語音識別（19-21）
Ⅵ、計算機視覺（22-26）
Ⅶ、分布式訓練（27-31）
Ⅷ、自動建模（32-35）
Ⅸ、IDEs系統(tǒng)（36-38）
Ⅹ、平臺（39-41）
Ⅺ、評分推理系統(tǒng)（42-43）

適用于經典機器學習的工具

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

一、SciKit-learn ?star 39.2k ?fork 19.2k

scikit-learn 是一種強大的基于 Python 語言的機器學習算法庫（https://scikit-learn.org/stable/）。其中，包含了算法預處理，模型參數擇優(yōu)，回歸與分類等算法，官方文檔包含了每一種算法的例子，代碼簡潔優(yōu)美，可視化了每一種算法結果，即能學習 python，也是幫助開發(fā)者更好理解機器學習算法的便利工具。

尤其在監(jiān)督學習部分，Scikit-learn 提供了廣義線性模型、支持向量機、最近鄰算法、高斯過程、樸素貝葉斯、決策樹和集成方法等算法教程，同時還介紹了特征選擇、隨即梯度下降算法、線性與二次判別分析等在監(jiān)督學習中非常重要的概念；而在半監(jiān)督學習中的標簽傳播算法和無監(jiān)督學習中的聚類與降維算法方面，也有非常多的教程。

GitHub 地址：
https://github.com/scikit-learn/scikit-learn

二、XGBoost star 18.3k ?fork 7.3k

xgboost 的全稱是 eXtreme Gradient Boosting，它在 Gradient Boosting 框架下實現了 c++機器學習算法。

XGBoost 最大的特點在于，它能夠自動利用 CPU 的多線程進行并行，同時在算法上加以改進提高了精度。它是經過優(yōu)化的分布式梯度提升庫，可擴展性強，高效、靈活且可移植。

GitHub 地址：
https://github.com/dmlc/xgboost

三、Accord.NET star 3.7k ?fork 1.7k

Accord.NET Framework 是一個.NET 機器學習框架，結合了完全用 C＃編寫的音頻和圖像處理庫（http://accord-framework.net/）。

它可用于構建生產級計算機視覺、計算機試聽、信號處理和統(tǒng)計應用程序甚至用于商業(yè)用途的完整框架，并為.NET 的應用程序提供了統(tǒng)計分析、機器學習、圖像處理、計算機視覺相關的算法。

GitHub 地址：
https://github.com/accord-net/framework

適用于深度學習的工具

TensorFlow 2019 年相關數據

四、TensorFlow star 141k ?fork 79.8k

TensorFlow 是用于機器學習的端到端開源平臺（https://tensorflow.org），也是 2019 年度 GitHub 上最受歡迎的項目。

它具有工具、庫、社區(qū)資源全面且靈活的生態(tài)系統(tǒng)，提供穩(wěn)定的 Python 和 C ++ API，以及其他語言的非保證向后兼容 API；能夠幫助開發(fā)者們在 ML 領域的研究與發(fā)展，并使開發(fā)人員輕松構建和部署 ML 支持的應用程序。

GitHub 地址：
https://github.com/tensorflow/tensorflow

五、PyTorch star 35.8k ?fork 9k

作為 TensorFlow 強有力競爭對手的 PyTorch，也是目前較為主流的深度學習工具之一。

PyTorch 是一個開源的機器學習框架，提供了兩個高級功能，包括：具有強有力的 GPU 加速度的張量計算（如 NumPy），以及基于磁帶自動調整系統(tǒng)構建的深度神經網絡；可加快從研究原型到生產部署的過程。

此前，OpenAI 官方宣布了「全面轉向 PyTorch」的消息，計劃將自家平臺的所有框架統(tǒng)一為 PyTorch，也進一步體現了 PyTorch 在深度學習方面的潛力。

GitHub 地址：
https://github.com/pytorch/pytorch

六、MXNET star 18.4k ?fork 6.5k

MXNet 是一個功能齊全，可編程和可擴展的深入學習框架，支持最先進的深入學習模式（https://mxnet.apache.org/）。

MXNet 提供了混合編程模型（命令式和聲明式）和大量編程語言的代碼（包括 Python、C++、R、Scala、Julia、Matlab 和 JavaScript）的能力，是一個易安裝易上手的開源深度學習工具，它提供了一個 python 接口 gluon，能夠讓開發(fā)者迅速搭建起神經網絡，并進行高效訓練。

GitHub 地址：
https://github.com/apache/incubator-mxnet

七、Sonnet star 8.1k ?fork 1.2k

Sonnet 是由 DeepMind 發(fā)布的，在 TensorFlow 上用于構建復雜神經網絡的開源庫。

Sonnet 主要用于讓 DeepMind 開發(fā)的其它模型更容易共享，Sonnet 可以在內部的其它子模塊中編寫模塊，或者在構建新模塊時傳遞其它模型作為參數；同時，Sonnet 提供實用程序來處理這些任意層次結構，以便于使用不同的 RNN 進行實驗，整個過程無需繁瑣的代碼改寫。

GitHub 地址：
https://github.com/deepmind/sonnet

八、DL4J star 11.5k ?fork 4.8k

DL4J 是采用 java 和 jvm 編寫的開源深度學習庫，支持各種深度學習模型。DL4J 最重要的特點是支持分布式，可以在 Spark 和 Hadoop 上運行，它支持分布式 CPU 和 GPU 運行，并可以利用 Spark 在多臺服務器多個 GPU 上開展分布式的深度學習模型訓練，讓模型運行更快。

DL4J 的基本特性包括：DL4J 中的神經網絡訓練通過簇的迭代并行計算；整個過程由 Hadoop 和 Spark 架構支持；使用 Java 允許開發(fā)者在 Android 設備的程序開發(fā)周期中使用。

GitHub 地址：
https://github.com/eclipse/deeplearning4j

適用于強化學習的工具

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

九、Gym star 19.6k ?fork 5.5k

Gym 是一個用于開發(fā)和比較強化學習算法的工具（https://gym.openai.com/）。

它無需對 agent 的先驗知識，并且采用 python 作為主要開發(fā)語言，因此可以簡單的和 TensorFlow 等深度學習庫進行開發(fā)集成，同時直觀的將學習結果用畫面直觀的展示出來。Gym 庫中包含許多可以用于制定強化學習算法的測試問題（即環(huán)境），這些環(huán)境有共享接口，允許編寫通用的算法。

GitHub 地址：
https://github.com/openai/gym

十、Dopamine star 8.7k ?fork 1.1k

一款基于 Tensorflow 的框架，旨在為新手和經驗豐富的強化學習研究人員提供兼具靈活性、穩(wěn)定性和可重復性的新工具。

該框架的靈感來源于大腦中獎勵-動機行為的主要成分「多巴胺受體」，這反映了神經科學與強化學習研究之間的強大的歷史聯(lián)系，是一個強化學習算法快速原型的研究框架。

GitHub 地址：
https://github.com/google/dopamine

十一、ReAgent star 2.4k ?fork 312

Facebook 推出的一個構建決策推理系統(tǒng)的模塊化端到端平臺，用于推理系統(tǒng)（強化學習、上下文管理等）, 可以顯著簡化推理模型構建過程。

ReAgent 由三部分組成：生成決策并接收決策反饋的模型、用于評估新模型部署前性能的模塊及快速迭代的服務平臺。同時，ReAgent 也是創(chuàng)建基于 AI 的推理系統(tǒng)的最全面、模塊化開源平臺，并且是第一個包含策略評估的平臺，將會加速相關決策系統(tǒng)的部署。

GitHub 地址：
https://github.com/facebookresearch/ReAgent

十二、Tensorlayer star 5.9k ?fork 1.3k

這是一個面向科學家的深度學習和強化學習庫。TensorLayer 由底層到上層可以分為三大模塊：神經網絡模塊、工作流模塊、應用模塊。

與 Keras 和 Pytorch 相比，TensorLayer 提高了神經網絡模塊的抽象化設計，同時實現了降低使用現有層和開發(fā)新層的工作量。

GitHub 地址：
https://github.com/tensorlayer/tensorlayer

適用于自然語言處理的工具

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

十三、BERT star 21.3k ?fork 5.8k

BERT 是一個基于雙向 Transformer 的大規(guī)模預訓練語言模型，用于對大量未標記的文本數據進行預訓練，以學習一種語言表示形式，這種語言表示形式可用于對特定機器學習任務進行微調。

BERT 被稱為是 NLP 領域中里程碑的進展；目前，BERT 也是 NLP 深度學習中的重要組成部分，很多之后的自然語言處理模型都是在此基礎上優(yōu)化與改進而得。

GitHub 地址：
https://github.com/google-research/bert

十四、Transformers star 21.7k ?fork 4.8k

Transformers 是神經機器翻譯中使用的一種神經網絡，它主要涉及將輸入序列轉換為輸出序列的任務，這些任務包括語音識別和文本轉換語音。

這類任務需要「記憶」，下一個句子必須與前一個句的上下文相關聯(lián)（這是相當關鍵的），以免丟失重要的信息。通過將 attention 應用到正在使用的單詞上，則可以解決當句子太長的時，RNN 或 CNN 無法跟蹤上下文和內容的問題。

GitHub 地址：
https://github.com/huggingface/transformers

十五、AllenNLP star 8k ?fork 1.7k

一個基于 PyTorch 的 NLP 研究庫，利用深度學習來進行自然語言理解，通過處理低層次的細節(jié)、提供高質量的參考實現，能輕松快速地幫助研究員構建新的語言理解模型。

AllenNLP 能讓設計和評估新的深度學習模型變得簡單，幾乎適用于任何 NLP 問題，通過利用一些基礎組件，你可以輕松地在云端或是你自己的筆記本上跑模型。

GitHub 地址：
https://github.com/allenai/allennlp

十六、flair star 8.1k ?fork 1k

一款簡單易用的 Python NLP 庫，允許將當前最優(yōu)自然語言處理（NLP）模型應用于文本，如命名實體識別（NER）、詞性標注（PoS）、詞義消歧和分類。

Flair 基于 Pytorch 的 NLP 框架，它的接口相對更簡單，允許用戶使用和結合不同的詞嵌入和文檔嵌入，包括 Flair 嵌入、BERT 嵌入和 ELMo 嵌入。

GitHub 地址：
https://github.com/flairNLP/flair

十七、spaCy star 15.7k ?fork 2.8k

這是一個具有工業(yè)強度級的 Python 自然語言處理工具包。

它已經成為 Python 中最廣泛使用的工業(yè)級自然語言庫之一，它提供了當前最佳的準確性和效率，并且有一個活躍的開源社區(qū)支持。

GitHub 地址：
https://github.com/explosion/spaCy

十八、fastText star 20.5k ?fork 3.9k

FastText 是 Facebook 人工智能研究實驗室（FAIR）開源的一個文本處理庫，他是一個專門用于文本分類和外文本表示的庫，用于高效文本分類和表示學習。

fastText 的核心是使用「詞袋」的方式，不管文字的順序；但它不是線性的，而是使用分層分類器來將時間復雜度降低到對數級別，并且在具有更高分類數量的大數據集上更高效。

GitHub 地址：
https://github.com/facebookresearch/fastText

適用于語音識別的工具

十九、Kaldi star 8.2k ?fork 3.7k

Kaldi 是目前使用廣泛的開發(fā)語音識別應用的框架。

該語音識別工具包使用了 C ++編寫，研究開發(fā)人員利用 Kaldi 可以訓練出語音識別神經網路模型，但如果需要將訓練得到的模型部署到移動端設備上，通常需要大量的移植開發(fā)工作。

GitHub 地址：
https://github.com/kaldi-asr/kaldi

二十、DeepSpeech star 13k ?fork 2.4k

DeepSpeech 是一個開源語音轉文本引擎，使用基于百度深度語音研究論文的機器學習技術訓練的模型。其中，該項目運用到了 Google 的 TensorFlow 來簡化實施過程。

GitHub 地址：
https://github.com/mozilla/DeepSpeech

二十一、wav2letter star 4.8k ?fork 770

這是由 Facebook 人工智能研究院發(fā)布的首個全卷積自動語音識別工具包，它是一個簡單高效的端到端自動語音識別（ASR）系統(tǒng)。

wav2letter 的核心設計基于三個關鍵原則，包括：實現在包含成千上萬小時語音數據集上的高效模型訓練；簡單可擴展模型，可以接入新的網絡架構、損失函數以及其他語音識別系統(tǒng)中的核心操作；以及平滑語音識別模型從研究到生產部署的過渡。

GitHub 地址：
https://github.com/facebookresearch/wav2letter

適用于計算機視覺的工具

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

二十二、YOLO star 16.2k ?fork 10.4k

YOLO 是當前深度學習領域解決圖像檢測問題最先進的實時系統(tǒng)。在檢測過程中，YOLO 首先將圖像劃分為規(guī)定的邊界框，然后對所有邊界框并行運行識別算法，來確定物體所屬的類別。確定類別之后，YOLO 再智能地合并這些邊界框，在物體周圍形成最優(yōu)邊界框。

這些步驟全部并行進行，因此 YOLO 能夠實現實時運行，并且每秒處理多達 40 張圖像。據官網顯示，在 Pascal Titan X 上，它以 30 FPS 的速度處理圖像，并且在 COCO 測試開發(fā)中的 mAP 為 57.9％。

GitHub 地址：
https://github.com/allanzelener/YAD2K

二十三、OpenCV star 41.9k ?fork 32.4k

OpenCV 是英特爾開源的跨平臺計算機視覺庫（https://opencv.org），被稱為 CV 領域開發(fā)者與研究者的必備工具包。

這是一套包含從圖像預處理到預訓練模型調用等大量視覺 API 的庫，并可以處理圖像識別、目標檢測、圖像分割和行人再識別等主流視覺任務。其最顯著的特點是它提供了整套流程的工具，因此開發(fā)者無需了解各個模型的原理就能用 API 構建視覺任務。它具備 C++、Python 和 Java 接口，支持 Windows、Linux、Mac OS、iOS 和 Android 系統(tǒng)。

GitHub 地址：
https://github.com/opencv/opencv

二十四、Detectron2 star 7.7k ?fork 1.4k

Detectron2 則是 PyTorch 1.3 中一重大新工具，它源于 maskrcnn 基準測試，也是對先前版本 detectron 的一次徹底重寫。

Detectron2 通過全新的模塊化設計，變得更靈活且易于擴展，它能夠在單個或多個 GPU 服務器上提供更快速的訓練速度，包含了更大的靈活性與擴展性，并增強了可維護性和可伸縮性，以支持在生產中的用例。

GitHub 地址：
https://github.com/facebookresearch/detectron2

二十五、OpenPose star 15.9k ?fork 4.7k

OpenPose 人體姿態(tài)識別項目是美國卡耐基梅隆大學（CMU）基于卷積神經網絡和監(jiān)督學習并以 caffe 為框架開發(fā)的開源庫。

它可以實現人體動作、面部表情、手指運動等姿態(tài)估計。適用于單人和多人，具有極好的魯棒性。是世界上首個基于深度學習的實時多人二維姿態(tài)估計應用，很多人體姿態(tài)估計實例都是基于它實現，如動作采集、3D 試衣、繪畫輔助等。

GitHub 地址：
https://github.com/CMU-Perceptual-Computing-Lab/openpose

二十六、facenet star 10k ?fork 4.1k

FaceNet 采用了深度卷積神經網絡（CNN）學習將圖像映射到歐式空間，也被稱為通用人臉識別系統(tǒng)。

該系統(tǒng)可從人臉中提取高質量的特征，稱為人臉嵌入（face embeddings），可用于訓練人臉識別系統(tǒng)，從而實現對人臉的驗證。它在 LFW 數據集上測試的準確率達到了 99.63%，在 YouTube Faces DB 數據集上準確率為 95.12%。

GitHub 地址：
https://github.com/davidsandberg/facenet

適用于分布式訓練的工具

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

二十七、Spark MLlib star 25.1k ?fork 21.1k

Spark 是一個開源集群運算框架，也是現在大數據領域熱門開源軟件之一（https://spark.apache.org/mllib/）。

由于 Spark 使用了內存內運算技術，它在內存上的運算速度比 Hadoop MapReduce 的運算速度快上 100 倍；這也使得 Spark MLlib 分布式計算框架運行非常高效、快速。它可以實現大部分機器學習，如：聚類、分類、回歸等算法，并允許將數據加載至集群內存，多次對其進行查詢，所以非常適合用于機器學習算法。

GitHub 地址：
https://github.com/apache/spark

二十八、Mahout star 1.8k ?fork 930

Mahout 是一個分布式線性代數框架，用于快速創(chuàng)建可擴展的高性能機器學習應用程序（http://mahout.apache.org/ ）。

Mahout 框架長期以來一直與 Hadoop 綁定，但它的許多算法也可以在 Hadoop 之外運行。它允許多種算法可以跨越分布式 Spark 群集上運行，并且支持 CPU 和 GPU 運行。

GitHub 地址：
https://github.com/apache/mahout

二十九、Horovod star 8.5k ?fork 1.3k

這是由 Uber 開源的一個跨多臺機器的分布式深度學習的 TensorFlow 訓練框架，可以使分布式深度學習快速且易于使用。

據介紹，Horovod 讓開發(fā)人員只需幾行代碼就可以完成任務。這不僅加快了初始修改過程，而且進一步簡化了調試?？紤]到深度學習項目的高度迭代性，這也可以節(jié)省大量時間。除此之外，它還結合了高性能和修補低級模型細節(jié)的能力，例如：同時使用高級 api，并使用 NVIDIA 的 CUDA 工具包實現自己的自定義操作符。

GitHub 地址：
https://github.com/horovod/horovod

三十、Dask star 6.2k ?fork 994

當開發(fā)者需要并行化到多核時，可以用 Dask 來將計算擴展到多個內核甚至多個機器。

Dask 提供了 NumPy Arrays，Pandas Dataframes 和常規(guī)列表的抽象，能夠在無法放入主內存的數據集上并行運行。對大型數據集來說，Dask 的高級集合是 NumPy 和 Pandas 的替代方案。

GitHub 地址：
https://github.com/dask/dask

三十一、Ray star 10.3k ?fork 1.5k

Ray 是一個高性能分布式執(zhí)行框架，它使用了和傳統(tǒng)分布式計算系統(tǒng)不一樣的架構和對分布式計算的抽象方式，用于快速而簡單的構建和運行分布式應用程序。

Ray 按照典型的 Master-Slave 進行設計。其中，Master 負責全局協(xié)調和狀態(tài)維護，Slave 執(zhí)行分布式計算任務。不過和傳統(tǒng)的分布式計算系統(tǒng)不同的是，Ray 使用了混合任務調度的思路，性能更強。

GitHub 地址：
https://github.com/ray-project/ray

適用于自動建模的工具

三十二、TPOT star 6.7k ?fork 1.2k

TPOT 是一個 Python 編寫的軟件包，利用遺傳算法行特征選擇和算法模型選擇，僅需幾行代碼，就能生成完整的機器學習代碼。

在機器學習模型開發(fā)圖中，TPOT 所完成的即通過利用遺傳算法，分析數千種可能的組合，為模型、參數找到最佳的組合，從而自動化機器學習中的模型選擇及調參部分。

GitHub 地址：
https://github.com/EpistasisLab/tpot

三十三、AutoKeras star 6.6k ?fork 1.1k

它使用了高效神經架構搜索（ENAS，https://arxiv.org/abs/1802.03268），只需使用 pip install autokeras 就能快速輕松地安裝軟件包，然后就能用自己的數據集來執(zhí)行自己的架構搜索構建思路。

相比谷歌 AutoML，兩者構建思路類似，但不同的是，AutoKeras 所有代碼都已經開源，可供開發(fā)者無償使用。

GitHub 地址：
https://github.com/keras-team/autokeras

三十四、Featuretools star 4.6k ?fork 602

這是一個用于自動化特性工程的開源 python 框架（https://www.featuretools.com/）。

它可以幫助開發(fā)者從一組相關數據表中自動構造特征。開發(fā)者只需要知道數據表的基本結構和它們之間的關系，然后在實體集（一種數據結構）中指明。然后在有了實體集之后，使用一個名為深度特征合成（DFS）的方法，在一個函數調用中構建出數千個特征。

GitHub 地址：
https://github.com/FeatureLabs/featuretools

三十五、NNI star 5.3k ?fork 683

NNI 是由微軟發(fā)布的一個用于神經網絡超參數調整的開源 AutoML 工具包，也是目前較為熱門的 AutoML 開源項目之一。

最新版本的 NNI 對機器學習生命周期的各個環(huán)節(jié)做了更加全面的支持，包括：特征工程、神經網絡架構搜索（NAS）、超參調優(yōu)和模型壓縮，開發(fā)者都能使用自動機器學習算法來完成，即使是開發(fā)小白也能輕松上手。

GitHub 地址：
https://github.com/microsoft/nni

三十六、AdaNet star 3k ?fork 443

AdaNet 是由谷歌開源的一個輕量級的基于 TensorFlow 框架（https://adanet.readthedocs.io/en/v0.8.0/）。

AdaNet 易于使用，并能創(chuàng)建高質量的模型，為 ML 實踐者節(jié)省了用于選擇最佳神經網絡架構的時間，實現了一種將學習神經架構作為子網絡集合的自適應算法。

GitHub 地址：
https://github.com/tensorflow/adanet

IDEs 系統(tǒng)

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

三十七、Jupyter star 9.3k ?fork 2.2k

Jupyter 是一種 Web 應用，涵蓋了跨數十種編程語言的交互式計算。

它能讓用戶將說明文本、數學方程、代碼和可視化內容全部組合到一個易于共享的文檔中，非常方便研究和教學。在數據挖掘平臺 Kaggle 上，使用 Python 的數據開發(fā)者大多數選擇了 jupyter 來實現分析和建模的過程。

GitHub 地址：
https://github.com/jupyter/jupyter

三十八、Spyder star 5.1k ?fork 1k

Spyder 是一個用于科學計算的使用 Python 編程語言的集成開發(fā)環(huán)境（IDE）。

它結合了綜合開發(fā)工具的高級編輯、分析、調試功能以及數據探索、交互式執(zhí)行、深度檢查和科學包的可視化功能，對于初學者也非常友好。

GitHub 地址：
https://github.com/spyder-ide/spyder

三十九、Zeppelin star 4.6k ?fork 2.2k

Zeppelin 是一款基于 Web 的交互式數據分析平臺。它基于網絡的筆記本，默認使用 Spark 集群作為分析引擎，提供數據可視化的框架，支持數據驅動的交互式數據分析。

通過配置，它也支持包括 SQL、Python、R 等多種數據分析語言，提供數據庫查詢、動態(tài)圖表展示、地圖等數據可視化能力，并能夠以 Notebook 的形式保存和分發(fā)代碼及分析結果。

GitHub 地址：
https://github.com/apache/zeppelin

平臺

四十、H2O star 4.6k ?fork 1.7k

H2O 是 H2O.ai 公司的完全開源的分布式內存機器學習平臺。H2O 同時支持 R 和 Python，支持最廣泛使用的統(tǒng)計和機器學習算法，包括梯度提升（Gradient Boosting）機器、廣義線性模型、深度學習模型等。

H2O 包括一個自動機器學習模塊，使用自己的算法來構建管道。它對特征工程方法和模型超參數采用了窮舉搜索，優(yōu)化了管道。H2O 自動化了一些最復雜的數據科學和機器學習工作，例如特征工程、模型驗證、模型調整、模型選擇和模型部署。除此之外，它還提供了自動可視化以及機器學習的解釋能力（MLI）。

GitHub 地址：
https://github.com/h2oai/h2o-3

四十一、MLflow star 5.9k ?fork 1.2k

MLflow 是機器學習生命周期的開源平臺，開放接口，可與任何機器學習庫、算法、部署工具或編程語言一起使用，基于 REST API 和簡單的數據格式而構建。是一個開源項目，允許用戶和機器學習庫開發(fā)人員可以對其進行擴展。

MLflow 現 alpha 版，提供跟蹤、項目和模型三大組件。MLflow 的跟蹤組件支持記錄和查詢實驗數據，如評估度量指標和參數。MLflow 的項目組件提供了可重復運行的簡單包裝格式。最后，MLflow 的模型組件提供了用于管理和部署模型的工具。

GitHub 地址：
https://github.com/mlflow/mlflow

四十二、Kubeflow star 8.3k ?fork 1.3k

Kubeflow 項目旨在使 Kubernetes 上的機器學習變的輕松、便捷、可擴展，其目標不是重建其他服務，而是提供一種簡便的方式找到最好的 OSS 解決方案。對分布式訓練任務支持。

用于創(chuàng)建和管理交互式 Jupyter notebook 的 JupyterHub，可配置為使用 CPU 或 GPU，并通過單一設置調整至單個集群大小的 TensorFlow 訓練控制器（Tensorflow Training Controller），用于 TF 服務容器（TF Serving container）

GitHub 地址：
https://github.com/kubeflow/kubeflow

評分推理系統(tǒng)

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

四十三、ONNX star 7.8k ?fork 1.3k

ONNX 是一種針對機器學習所設計的開放式的文件格式，用于存儲訓練好的模型。它使得不同的人工智能框架（如 Pytorch, MXNet）可以采用相同格式存儲模型數據并交互。ONNX 的規(guī)范及代碼主要由微軟，亞馬遜，Facebook 和 IBM 等公司共同開發(fā)，以開放源代碼的方式托管在 Github 上。

目前官方支持加載 ONNX 模型并進行推理的深度學習框架有： Caffe2, PyTorch, MXNet，ML.NET，TensorRT 和 Microsoft CNTK，并且 TensorFlow 也非官方的支持 ONNX。

GitHub 地址：
https://github.com/onnx/onnx

四十四、Seldon star 1.4k ?fork 296

開源機器學習部署平臺 Seldon Core，讓機器學習模型可以部署于 Kubernetes 上。Seldon Core 的目標，要讓研究人員可以用任何工具包、程序語言建立機器學習模型。

現階段該工具支持模型包含以 Python 為基礎的 TensorFlow、Sklearn，還有 Spark、H2O、R 等知名模型。此外，Seldon Core 也讓機器學習模型可支援 REST、gRPC，讓使用者可以更簡單地整合相關企業(yè)應用。

GitHub 地址：
https://github.com/SeldonIO/seldon-core

雷鋒網 AI 開發(fā)者

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

6人收藏

楊鯉萍

編輯

發(fā)私信

當月熱門文章

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）

適用于經典機器學習的工具

適用于深度學習的工具

適用于強化學習的工具

適用于自然語言處理的工具

適用于語音識別的工具

適用于計算機視覺的工具

適用于分布式訓練的工具

適用于自動建模的工具

IDEs 系統(tǒng)

平臺

評分推理系統(tǒng)

2020 年最具潛力 44 個頂級開源項目，涵蓋 11 類 AI 學習框架、平臺（值得收藏）