## 前言
这里又又又不得不大伙道个歉。
一个是其实这篇文章早就构思好了内容了,其他也已经准备好了,只不过因为没(纯)时(懒)间拖了这么久才写。
还有就是文章内容与标题不符,为什么这么说呢,因为实际上既不是立刻学会也不止标题这些内容。
本文主要的理论发展于:
[lbk]《On the Biology of a Large Language Model》[rbk](https://transformer-circuits.pub/2025/attribution-graphs/biology.html)
其实还包括各种各样乱七八糟的论文,还是帖子什么的,总之就是忘了列不出来。
本文大部分提到的理论反正我个人是在实践中均符合预期,但不排除这只是部分情况不能拓展至普遍,部分成果可见:[lbk]GitHub - System-prompts-from-various-manufacturers[rbk](https://github.com/blackfunny233/System-prompts-from-various-manufacturers)。
如果你只是想玩玩AI,利用模型创作、学习等,那么我建议最好不要看本文。一是看了对实际也大概率没啥用纯浪费时间,二是对模型了解的越少,玩的就越开心愉悦。
本文纯个人瞎几把乱猜,当做笔记看就行(反正现阶段只要模型可解释性一天不突破,提示词工程和攻防也是由经验主义主导)就算再怎么觉得哇好合理,那也可能是一本正经的瞎扯,还请根据实际情况批判性的阅读。如果你有异议,那是特别极好的!欢迎提出来或者在什么地方讨论都行!
> **文章如有任何大的或小的错误,请立刻联系我,我会尽可能的第一时间更正或删除。**
本文可能需要拥有相关经验和知识,或者观看涉及前提的入门教程:[lbk]这里放链接[rbk](语言模型和提示词分析从入门到跑路速通教程)来方便理解。由于个人能力彩笔,英语不行且是用机翻结合模型翻译看的,还请根据《Circuit Tracing: Revealing Computational Graphs in Language Models》和《On the Biology of a Large Language Model》原文(虽然都长,但真的非常有意思!)和其他CoT可解释性的有关论文批判性观看🙏🏻🙏🏻。
---
## 本文所包含的内容(替大伙更改或删去了有害模因,可能和原文有出入。遵纪守法,天天向上)
(带*号的是选看内容,不看应该不影响理解,吧)
* **1. 对于创作相关的提示词分析思路和方法**
**2. 模型的可解释性**
- 已有的最⭐最🥵理论
- 部分破限的可能的原理
* **3. 提示词对抗分析与运用(反催眠)**
- 分析提示词的漏洞
- 进行提示词攻击,实现反催眠
- 综合运用
> 注:本文仅针对一般理想情况,不考虑注意力不足、特别的训练等特殊情况。其他特殊情况还请多多探索思考🙏🏻🙏🏻。且本文仅讲述部分特别情况,其理论并不适用于所以有,仅做参考

这里又又又不得不大伙道个歉。
一个是其实这篇文章早就构思好了内容了,其他也已经准备好了,只不过因为没(纯)时(懒)间拖了这么久才写。
还有就是文章内容与标题不符,为什么这么说呢,因为实际上既不是立刻学会也不止标题这些内容。
本文主要的理论发展于:
[lbk]《On the Biology of a Large Language Model》[rbk](https://transformer-circuits.pub/2025/attribution-graphs/biology.html)
其实还包括各种各样乱七八糟的论文,还是帖子什么的,总之就是忘了列不出来。
本文大部分提到的理论反正我个人是在实践中均符合预期,但不排除这只是部分情况不能拓展至普遍,部分成果可见:[lbk]GitHub - System-prompts-from-various-manufacturers[rbk](https://github.com/blackfunny233/System-prompts-from-various-manufacturers)。
如果你只是想玩玩AI,利用模型创作、学习等,那么我建议最好不要看本文。一是看了对实际也大概率没啥用纯浪费时间,二是对模型了解的越少,玩的就越开心愉悦。
本文纯个人瞎几把乱猜,当做笔记看就行(反正现阶段只要模型可解释性一天不突破,提示词工程和攻防也是由经验主义主导)就算再怎么觉得哇好合理,那也可能是一本正经的瞎扯,还请根据实际情况批判性的阅读。如果你有异议,那是特别极好的!欢迎提出来或者在什么地方讨论都行!
> **文章如有任何大的或小的错误,请立刻联系我,我会尽可能的第一时间更正或删除。**
本文可能需要拥有相关经验和知识,或者观看涉及前提的入门教程:[lbk]这里放链接[rbk](语言模型和提示词分析从入门到跑路速通教程)来方便理解。由于个人能力彩笔,英语不行且是用机翻结合模型翻译看的,还请根据《Circuit Tracing: Revealing Computational Graphs in Language Models》和《On the Biology of a Large Language Model》原文(虽然都长,但真的非常有意思!)和其他CoT可解释性的有关论文批判性观看🙏🏻🙏🏻。
---
## 本文所包含的内容(替大伙更改或删去了有害模因,可能和原文有出入。遵纪守法,天天向上)
(带*号的是选看内容,不看应该不影响理解,吧)
* **1. 对于创作相关的提示词分析思路和方法**
**2. 模型的可解释性**
- 已有的最⭐最🥵理论
- 部分破限的可能的原理
* **3. 提示词对抗分析与运用(反催眠)**
- 分析提示词的漏洞
- 进行提示词攻击,实现反催眠
- 综合运用
> 注:本文仅针对一般理想情况,不考虑注意力不足、特别的训练等特殊情况。其他特殊情况还请多多探索思考🙏🏻🙏🏻。且本文仅讲述部分特别情况,其理论并不适用于所以有,仅做参考
