-
VoiceCraft
VoiceCraft 是一个开源项目 ,由 Jason Peng 等人开发,旨在实现零样本(Zero-Shot)语音编辑和文本到语音(Text-to-Speech, TTS)转换。 该项目在野生数据集上,包括有声书、互联网视频和播客等,都取得了最先进的性能。VoiceCraft基于一个基于令牌的神经编解码器语言模型,能够通过仅仅几秒钟的参考音频来克隆或编辑一个未见过的语音。 -
MoneyPrinterTurbo
AI 生成高清短视频 这个 GitHub 仓库名为“MoneyPrinterTurbo”,由用户 harry0703 创建,开源两周已经获得了 6k+ 的 Star。该项目的核心功能是利用人工智能大型语言模型(AI LLM)技术,实现一键生成高清短视频。 你只需提供一个视频主题或关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。 -
DeepPavlov
DeepPavlov是一个复杂的开源对话AI库,使用PyTorch框架构建。其主要目的是促进高级聊天机器人和复杂对话系统的开发。此外,该图书馆还支持自然语言处理(NLP)领域的研究活动,特别关注对话系统。 许多企业和大型组织正在采用聊天机器人作为客户服务前线的替代品。因此,机器越来越有能力参与对话。DeepPavlov集成了基本的机器学习工具,如TensorFlow,Keras和PyTorch -
PaddleNLP
PaddleNLP是一个著名的NLP库,它利用了PaddlePaddle框架,为各种NLP任务提供了一个易于访问且强大的工具集。其令人印象深刻的预训练模型动物园支持研究和工业应用,使用户能够完成文本分类、神经搜索、问答、信息提取、文档智能、情感分析和扩散 AIGC 系统等任务。 随着自然语言处理 (NLP) 引擎变得越来越复杂,它们可以执行神经搜索、情感分析,并为人类和机器用户提取重要信息 -
FauxPilot
FauxPilot 通过培训现有生产代码并利用其知识提供结构化反馈和建议,为寻求支持的程序员提供编码帮助。该项目的灵感来自GitHub Copilot,但通过允许用户选择特定的存储库进行培训而与众不同。 这种增加的控制级别使个人能够避免使用来自未获得批准的来源的代码片段,确保获得的帮助和代码片段是可靠的,并且没有潜在的法律问题。通过仔细选择培训源并将其限制为具有适当权限和许可证的人员 -
YOLO7
YOLOv7 是用于计算机视觉任务的最快、最准确的实时对象检测模型。 实时物体检测是自动驾驶汽车、机器人和辅助设备等各种应用的关键领域,对人工智能提出了复杂的挑战。准确识别图像中的物体对于确保这些技术收集和传达精确的环境信息至关重要。 在开源对象检测工具中,YOLOv7 是最有效和最精确的选项之一。通过提供一组包含物体的图像,该工具可以快速准确地识别它们,从而为观察到的场景提供有价值的见解 -
Ivy
Ivy是一个最先进的ML框架,目前支持JAX,TensorFlow,PyTorch和Numpy。我们很高兴邀请您体验其卓越的功能。 我们的路线图包括集成所有框架之间的自动代码转换,以及以最少的代码修改为所有开源库提供即时多框架支持。请参阅以下子页面,以了解有关 Ivy 的目的、用途、即将推出的功能和贡献机会的更多信息。 为了指示功能的当前状态,我们使用它来表示正在进行的开发并表示实现完成。此外 -
TFLearn
TFlearn是一个建立在Tensorflow之上的深度学习库,旨在提供更高级别的API,以促进和加速深度学习实验,同时保持与Tensorflow的完全透明和兼容性。 TFlearn 提供用户友好且易于理解的高级 API,用于开发深度神经网络,以及广泛的内置模块化神经网络层、正则器、优化器和用于快速原型设计的指标。此外,TFlearn提供了Tensorflow的完全透明度 -
Theano
Theano是由加拿大魁北克省蒙特利尔市蒙特利尔大学的MILA小组开发的开源人工智能项目。它是一个Python库,有助于使用NumPy或SciPy对多维数组进行数学运算。Theano能够利用GPU来加速处理,并且可以自动生成用于梯度计算的符号图。 Theano最初是为实现尖端的深度学习算法而设计的,现已成为深度学习研究和开发的行业标准。虽然它拥有卓越的计算性能 -
DALL·E Mini
DALL-E mini是一个在线文本到图像生成器,最近在社交媒体平台上经历了激增。该应用程序通过将文本短语(如“山日落”、“月球上的埃菲尔铁塔”或“奥巴马建造沙堡”)转换为图像表示来发挥作用。 该应用程序最初是由德克萨斯州计算机工程师鲍里斯·戴马(Boris Dayma)提交的编码竞赛的,其名称源于其基于OpenAI强大的DALL-E人工智能技术。然而,DALL-E -
MindsDB
MindsDB是一个有前途的开源平台,旨在使开发人员能够构建AI驱动的应用程序。它为顶级机器学习框架提供了一种自动化和集成的方法,将它们无缝地整合到数据堆栈中。MindsDB提供了一个直观的界面,可以在数据库中将模型训练和部署为AI表,从而简化了机器学习过程,并使不同技能水平的开发人员更容易访问。 MindsDB为开发人员提供了多种用例来构建AI模型 -
Open Assistant
Open Assistant 是一个有远见的项目,旨在使对基于聊天的特殊大语言模型的访问民主化。作为 ChatGPT 的开源替代品,它旨在刺激语言创新的革命。我们的愿景是促进语言的突破性进步,就像稳定扩散改变了艺术和图像的创作一样。通过创建Open Assistant,我们希望促进语言能力的进步,最终为改善整个社会做出贡献 -
Fastai
Fastai 是一个全面的深度学习库,旨在支持从业者快速轻松地在标准深度学习领域获得最先进的结果,并为研究人员提供开发新方法的灵活性。它通过分层架构实现这一点,该架构采用解耦抽象来表达深度学习和数据处理技术的常见底层模式。这些抽象通过Python语言的动态性和PyTorch库的灵活性简洁明了地表达出来。 Fastai具有用于Python的新型类型调度系统,以及用于张量的语义类型层次结构 -
Apache MXNet
Apache MXNet 是一个高效灵活的深度学习框架,使开发人员能够混合符号和命令式编程,以实现最大的生产力。MXNet 的核心是动态依赖调度程序,可实时并行化符号和命令式操作,以及图形优化层,可提高符号执行速度和内存效率。作为一种便携式轻量级工具,MXNet 可以跨多个 GPU 和机器进行扩展。 除了技术能力之外,MXNet还代表了一个渴望使AI民主化的社区 -
Detectron2
Detectron2 是来自 Facebook AI Research 的最先进的库,为计算机视觉项目提供尖端的检测和分割算法。它建立在前身Detectron和maskrcnn-benchmark的成功基础上,旨在支持Facebook内部的研究和生产应用程序。Detectron的早期版本由Caffe提供支持,由于随后的代码修改将Caffe2和PyTorch合并到一个存储库中,这使得它难以使用 -
DeepFaceLab
DeepFaceLab是用于创建深度伪造的领先开源软件。 利用深度学习创建、修改或合成的深度伪造是指经过操纵的图像和视频。一个突出的例子是在现有的图像或视频中替换名人或政治家的脸,通常出于幽默的目的,但有时出于恶意。基于Python的开源DeepFaceLab代表了一种强大的deepfake技术,能够替换媒体中的面部,以及去除皱纹和其他衰老标志物 -
Stable Diffusion
稳定扩散是一种利用高级计算资源的尖端潜在文本到图像扩散模型。该模型使用潜在扩散模型和 5x512 图像在 LAION-512B 数据库的一个子集上进行训练,这要归功于 Stability AI 的慷慨计算捐赠和 LAION 的支持。与谷歌的Imagen类似,该模型利用冻结的CLIP ViT-L/14文本编码器来调节文本提示。尽管具有强大的功能,但该模型相对轻巧,具有860M -
Keras
Keras是一个用Python实现的高级深度学习API,建立在流行的机器学习平台TensorFlow之上。Keras 旨在促进快速实验,同时提供卓越的开发人员体验。 Keras 旨在为开发人员在构建机器学习驱动的应用程序时提供优势。它通过以下特征实现这一点: 简单性:Keras旨在减少开发人员的认知负担,并允许他们专注于手头问题的基本方面。Keras 强调易用性、简洁性、代码优雅性、调试速度 -
PyTorch
PyTorch是一个Python包,它提供了两个主要的高级功能:类似于NumPy的张量计算,但具有强大的GPU加速,以及建立在基于磁带的autograd系统上的深度神经网络。该包可以无缝地整合用户首选的Python包,如NumPy,SciPy和Cython,以根据需要扩展PyTorch。 PyTorch 是一个包含各种组件的库,包括: torch,一个类似于 NumPy 的张量库,但具有强大的 -
OpenCV
OpenCV或开源计算机视觉库是计算机视觉应用(包括视频,CCTV和图片分析)的强大工具。该库在 BSD 许可证下发布,可免费用于学术和商业用途。 OpenCV 库基于 C++,拥有超过 2,500 种最先进和经典的算法。这些算法能够检测图像或电影中的人脸,识别物体,并在视频中表征人类的情绪和行为。这个AI开源库还可用于检查电影和照片的所有组件,包括对象的运动轨迹 -
Hugging Face Transformers
Transformers 提供了大量预训练模型,可以有效地处理不同模式(如文本、视觉和音频)的各种任务。这些模型可以部署以执行与文本相关的任务,如文本分类、信息提取、问答、摘要、翻译和文本生成,支持 100 多种语言。它们还可以处理与图像相关的任务,如图像分类、对象检测和分割,以及与音频相关的任务,如语音识别和音频分类。此外,变压器模型可以对各种模式执行多任务处理,包括表格问答、光学字符识别 -
TensorFlow
TensorFlow是一个开源机器学习框架。 TensorFlow 是一个多功能的端到端开源平台,可促进机器学习。它提供了一个由工具、库和社区资源组成的全面而灵活的生态系统,使研究人员能够突破 ML 的界限,并使开发人员能够轻松构建和部署 ML 驱动的应用程序。 最初,TensorFlow是由Google Brain团队的研究人员和工程师在Google的机器智能研究组织内开发的