Add sampling penalties and logit bias #125

cyx-6 · 2023-12-19T18:53:26Z

This PR adds the sampling penlaties of frequency penalty and presence penalty. Also it adds the logit bias.

serve/mlc_serve/model/paged_cache_model.py

sunggg

Thank you @cyx-6!
I'm getting error when I run serve/benchmarks/benchmark_throughput.py.

/opt/bin/cuda-reserve.py --num-gpu 1 python3 serve/benchmarks/benchmark_throughput.py --local-id llama-2-7b-chat-hf-q0f16-presharded-1gpu --use-staging-engine --dataset /opt/models/dataset/ShareGPT_V3_unfiltered_cleaned_split.json

Traceback (most recent call last):
  File "/home/spark/mlc-llm/serve/mlc_serve/engine/staging_engine_worker.py", line 374, in run_generation_loop_worker
    output = worker.step()
  File "/home/spark/mlc-llm/serve/mlc_serve/engine/staging_engine_worker.py", line 224, in step
    results = self.text_generator.generate(requests, self.cache_manager.get_cache())
  File "/home/spark/mlc-llm/serve/mlc_serve/model/paged_cache_model.py", line 605, in generate
    out.extend(self.model.generate(decode_requests, kv_cache))
  File "/home/spark/mlc-llm/serve/mlc_serve/model/paged_cache_model.py", line 479, in generate
    next_tokens = sample(logits, sampling_params, self.vocab_size, appeared_token_freqs=self.appeared_token_freqs)
  File "/home/spark/mlc-llm/serve/mlc_serve/model/paged_cache_model.py", line 99, in sample
    freq = appeared_token_freqs[i]
IndexError: list index out of range

Would you take a look? After this fix, it would be nice to share the numbers on H100 before/after this PR to understand its performance impact.

serve/mlc_serve/model/paged_cache_model.py

This PR adds the sampling penlaties of frequency penalty and presence penalty. Also it adds the logit bias.

serve/mlc_serve/model/paged_cache_model.py

Addressed

masahi reviewed Dec 20, 2023

View reviewed changes

serve/mlc_serve/model/paged_cache_model.py Outdated Show resolved Hide resolved

sunggg previously requested changes Dec 20, 2023

View reviewed changes

serve/mlc_serve/model/paged_cache_model.py Outdated Show resolved Hide resolved

cyx-6 added 2 commits December 20, 2023 19:11

Add sampling penalties and logit bias

293fb8b

This PR adds the sampling penlaties of frequency penalty and presence penalty. Also it adds the logit bias.

fix

78c1390

cyx-6 force-pushed the sampler-features branch from a9f440c to 78c1390 Compare December 20, 2023 19:12

cyx-6 added 2 commits December 20, 2023 20:03

fix lint

b4c7d1f

vectorized sampling

69eb2fd

masahi reviewed Dec 20, 2023

View reviewed changes

serve/mlc_serve/model/paged_cache_model.py Outdated Show resolved Hide resolved

masahi reviewed Dec 20, 2023

View reviewed changes

serve/mlc_serve/model/paged_cache_model.py Outdated Show resolved Hide resolved

masahi reviewed Dec 20, 2023

View reviewed changes

serve/mlc_serve/model/paged_cache_model.py Outdated Show resolved Hide resolved

masahi reviewed Dec 20, 2023

View reviewed changes

serve/mlc_serve/model/paged_cache_model.py Outdated Show resolved Hide resolved

apply code review suggestions

941f2e4

masahi reviewed Dec 20, 2023

View reviewed changes

serve/mlc_serve/model/paged_cache_model.py Outdated Show resolved Hide resolved

fix

ae2ada5

masahi approved these changes Dec 20, 2023

View reviewed changes

masahi merged commit 624a99a into octoml:batch-serving Dec 20, 2023
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add sampling penalties and logit bias #125

Add sampling penalties and logit bias #125

cyx-6 commented Dec 19, 2023 •

edited

Loading

sunggg left a comment

Add sampling penalties and logit bias #125

Add sampling penalties and logit bias #125

Conversation

cyx-6 commented Dec 19, 2023 • edited Loading

sunggg left a comment

Choose a reason for hiding this comment

cyx-6 commented Dec 19, 2023 •

edited

Loading