quantization

Star

Here are 580 public repositories matching this topic...

huggingface / optimum-quanto

Star

A pytorch quantization backend for optimum

pytorch quantization optimum

Updated Jun 12, 2024
Python

hiyouga / LLaMA-Factory

Star

Unify Efficient Fine-Tuning of 100+ LLMs

Updated Jun 12, 2024
Python

This is the official PyTorch implementation of "LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models", and also an efficient LLM compression tool with various advanced compression methods, supporting multiple inference backends.

Updated Jun 12, 2024
Python

openvinotoolkit / nncf

Star

Neural Network Compression Framework for enhanced OpenVINO™ inference

nlp sparsity compression deep-learning tensorflow transformers pytorch classification pruning object-detection quantization semantic-segmentation bert hawq onnx openvino mmdetection mixed-precision-training quantization-aware-training

Updated Jun 12, 2024
Python

ModelTC / TFMQ-DM

Star

[CVPR 2024 Highlight] This is the official PyTorch implementation of "TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models".

highlight quantization cvpr ldm diffusion-models post-training-quantization ddim stable-diffusion cvpr2024

Updated Jun 12, 2024
Jupyter Notebook

intel / neural-compressor

Star

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated Jun 12, 2024
Python

huggingface / optimum

Star

🚀 Accelerate training and inference of 🤗 Transformers and 🤗 Diffusers with easy to use hardware optimization tools

training optimization intel transformers inference pytorch quantization onnx tflite onnxruntime graphcore habana

Updated Jun 12, 2024
Python

openvinotoolkit / training_extensions

Star

Train, Evaluate, Optimize, Deploy Computer Vision Models via OpenVINO™

machine-learning computer-vision deep-learning pytorch semi-supervised-learning image-classification object-detection transfer-learning image-segmentation quantization action-recognition automl incremental-learning anomaly-detection hyper-parameter-optimization self-supervised-learning openvino neural-networks-compression datumaro

Updated Jun 12, 2024
Python

Xilinx / finn

Star

Dataflow compiler for QNN inference on FPGAs

fpga neural-network compiler dataflow quantization

Updated Jun 12, 2024
Python

quic / aimet

Star

AIMET is a library that provides advanced quantization and compression techniques for trained neural network models.

open-source machine-learning opensource deep-neural-networks compression deep-learning pruning quantization auto-ml network-quantization network-compression

Updated Jun 12, 2024
Python

quic / aimet-pages

Star

AIMET GitHub pages documentation

open-source machine-learning opensource deep-neural-networks compression deep-learning pruning quantization auto-ml network-quantization network-compression

Updated Jun 11, 2024
HTML

Picovoice / picollm

Star

On-device LLM Inference Powered by X-Bit Quantization

natural-language-processing compression self-hosted llama language-models quantization language-model gemma mistral model-compression efficient-inference llm llms generative-ai large-language-model llama2 mixtral llm-infernece llama3

Updated Jun 11, 2024
Python

satabios / sconce

Star

Model Compression/Inference Made Easy

sparsity deployment torch pytorch quantization purning

Updated Jun 11, 2024
Jupyter Notebook

huggingface / optimum-intel

Star

🤗 Optimum Intel: Accelerate inference with Intel optimization tools

optimization intel transformers inference pruning quantization distillation onnx openvino diffusers

Updated Jun 12, 2024
Jupyter Notebook

OpenNMT / CTranslate2

Star

Fast inference engine for Transformer models

Updated Jun 11, 2024
C++

open-mmlab / mmrazor

Star

OpenMMLab Model Compression Toolbox and Benchmark.

detection pytorch classification segmentation pruning darts quantization nas knowledge-distillation spos autoslim

Updated Jun 11, 2024
Python

intel / auto-round

Star

SOTA Weight-only Quantization Algorithm for LLMs. This is official implementation of "Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs"

rounding quantization awq int4 gptq neural-compressor weight-only

Updated Jun 11, 2024
Python

sony / model_optimization

Star

Model Compression Toolkit (MCT) is an open source project for neural network model optimization under efficient, constrained hardware. This project provides researchers, developers, and engineers advanced quantization and compression tools for deploying state-of-the-art neural networks.

machine-learning deep-neural-networks deep-learning neural-network tensorflow optimizer pytorch quantization qat network-quantization network-compression edge-ai ptq

Updated Jun 10, 2024
Python

autohdw / QuBLAS

Star

Quantized BLAS

template cpp blas quantization meta-programming cpp23

Updated Jun 10, 2024
C++

Victorletzelter / VoronoiWTA

Star

Official code of the ICML24 paper: "Winner-takes-all learners are geometry-aware conditional density estimators"

quantization uncertainty-quantification density-estimation voronoi-tessellation

Updated Jun 10, 2024
Python

Improve this page

Add a description, image, and links to the quantization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the quantization topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

quantization

Here are 580 public repositories matching this topic...

huggingface / optimum-quanto

hiyouga / LLaMA-Factory

ModelTC / llmc

openvinotoolkit / nncf

ModelTC / TFMQ-DM

intel / neural-compressor

huggingface / optimum

openvinotoolkit / training_extensions

Xilinx / finn

quic / aimet

quic / aimet-pages

Picovoice / picollm

satabios / sconce

huggingface / optimum-intel

OpenNMT / CTranslate2

open-mmlab / mmrazor

intel / auto-round

sony / model_optimization

autohdw / QuBLAS

Victorletzelter / VoronoiWTA

Improve this page

Add this topic to your repo