本期推薦開源專案目錄:
1. Llama 3 大模型開源了!
2. 知識庫問答系統
3. 構建 AI 助手的框架
4. 開源的 RAG 引擎
01、Llama 3 大模型開源了!
Llama 3 是 Meta 釋出的最新大型語言模型,旨在讓個人、創作者、研究人員和各種規模的企業能夠負責任地試驗、創新和擴充套件他們的想法。
相比於之前釋出的開源模型, Llama 3 的特性是:
資料量:訓練的資料是 Llama 2資料集的 7 倍多
能力增強:推理和程式碼能力增強
訓練效率:比 Llama2 高 3 倍;
模型大小:提供從 8B 到 70B 引數的不同大小的預訓練和指令調整的 Llama 3語言模型
下載和使用:提供了模型權重和分詞器的下載指南,以及如何在本地執行模型的快速入門步驟
支援模型並行:不同大小的模型需要不同的模型並行(MP)值
許可證: 模型和權重對研究人員和商業實體開放,旨在促進發現和道德的AI進步
開源地址:https://github.com/meta-llama/llama3
02、知識庫問答系統
MaxKB 是一個基於大型語言模型(LLM)的知識庫問答系統,旨在成為企業的“最強大腦”,由開發者 1Panel-dev 開源,目前已經獲得了 2.9k 的 Star。這個是該開源專案的特性:
開箱即用:支援上傳文件和自動爬取線上文件,文字自動拆分和向量化,提供良好的智慧問答互動體驗。
無縫嵌入:可以快速嵌入到第三方業務系統中,無需編碼。
多模型支援:支援多種主流的大型模型,包括本地私有模型和雲服務模型。
開源地址:https://github.com/1Panel-dev/MaxKB
03、構建 AI 助手的框架
Phidata 是一個用於構建具有記憶、知識和工具的AI助手的框架,用來解決大型語言模型(LLM)上下文限制和無法執行操作的問題。他的工作原理如下:
記憶:透過資料庫儲存聊天曆史,使LLM能夠進行長期對話。
知識:透過向量資料庫儲存資訊,為LLM提供上下文。
工具:使LLM能夠執行如從API提取資料、傳送電子郵件或查詢資料庫等操作。
開源地址:https://github.com/phidatahq/phidata
04、開源的 RAG 引擎
RAGFlow 是由開發者 infiniflow 開源,目前已經獲得了 5.2K 的 Star。該專案是一個開源的 RAG(Retrieval-Augmented Generation,檢索增強生成)引擎,基於深度文件理解,為不同規模的企業提供簡化的 RAG 工作流程。
它由如下關鍵特性:
高質量輸入輸出: 從複雜格式的非結構化資料中進行深度文件理解並提取知識。
模板化分塊: 提供智慧且可解釋的模板選項。
基於引用的引用: 減少幻覺,透過視覺化的文字分塊允許人工干預,快速檢視關鍵引用和可追溯的引用來支援基於事實的答案。
異構資料來源相容性: 支援 Word、PPT、Excel、TXT、影象、掃描副本、結構化資料、網頁等。
自動化 RAG 工作流: 提供為個人和大型企業量身定製的簡化 RAG 編排,包括可配置的 LLM 和嵌入模型,多重召回與融合重排,以及與業務無縫整合的直觀 API。
開源地址:https://github.com/infiniflow/ragflow