Tokens Window Large Language Model Context Window

About 1,960,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › question
NLP领域中的token和tokenization到底指的是什么？ - 知乎
Tokenizer是将文本切分成多个tokens的工具或算法。它负责将原始文本分割成tokens 序列。在NLP中，有多种不同类型的tokenizer，每种tokenizer都有其特定的应用场景和适用范围。基 …
zhihu.com
https://www.zhihu.com › question
Deekseek r1本地部署，14b和32b最小需要多大显存吗？ - 知乎
如题，本地部署的话，14b的用16g显存显卡能用gpu跑吗，32b的用32g显存显卡能用gpu跑吗？我看到过有篇文章…
zhihu.com
https://www.zhihu.com › question
ChatGPT如何计算token数？ - 知乎
OpenAI 使用的分词方法，特别是针对汉字，的确有时会导致一个汉字被计算为多个 tokens。这不是将汉字拆成 Unicode 码来处理，而是因为 GPT-3 使用的 Byte-Pair Encoding (BPE) 分词方 …
zhihu.com
https://www.zhihu.com › question
大模型训练的性能指标：吞吐率 Throughput 是指什么？ - 知乎
每秒处理的Token数： Throughput_ {tokens} = Throughput_ {samples} * seq\_len \\ 假设GLM10B网络模型使用DGX A100（8x 80GB）训练的吞吐量为25 samples/s，max seq_len …
zhihu.com
https://www.zhihu.com › question
请解释一下这些语料库语言学概念：type，token, lemma，word …
最容易理解的是token，直接数一共多少个词，显然，这句话共有15个词，即15个tokens。 2. type与token的区别：type强调“不同的单词”，假如句子中有重复的单词，无论重复几次，都只 …
zhihu.com
https://www.zhihu.com › question
最新M4版本的Mac，尝试本地部署deepseek的话，32b的模型哪个 …
最新M4版本的Mac，尝试本地部署deepseek的话，32b的模型哪个版本的Mac可以跑起来？
zhihu.com
https://www.zhihu.com › question
deepseek在cherry studio本地知识库会消耗API的tokens吗？
相同的疑惑， cherry studio 根据tokens的消耗显示，每次问答的时候读取知识库的上文输入tokens可能就得一两万，这时候输出tokens可能也就一两千，应该每次读取都是消耗的。另外 …
zhihu.com
https://www.zhihu.com › question
deepseek开始会员收费了吗？ - 知乎
deepseek-chat 模型已经升级为 DeepSeek-V3；deepseek-reasoner 模型为新模型 DeepSeek-R1。思维链为deepseek-reasoner模型在给出正式回答之前的思考过程，其原理详见推理模 …
zhihu.com
https://www.zhihu.com › question
求问deepseek出现这种情况怎么办啊？ ? - 知乎
Jan 31, 2025 · DeepSeek 不是告诉你原因和解法了嘛。原因：当前对话已超出深度思考的最大长度限制解法：开启一个新对话继续思考吧至于具体解释，得看这几个参数，DeepSeek R1 的 …
zhihu.com
https://www.zhihu.com › question
大模型参数量和占的显存怎么换算？ - 知乎
Llama 7B或者baichuan7b跑起来需要多少显存？能根据参数量估计出来么？

Pagination
- 1
- 2
- 3
- 4
- Next