Даниил Иринин (Редактор отдела «Наука и техника»)
Lambert 指出了一个根本矛盾:美国的学术界和开源模型开发者也在做蒸馏行为,但包括 Anthropic 在内的大厂并没有对它们做出实质性的打击。如果仅因为对方是中国公司,未免地缘的意味太重了。
,详情可参考服务器推荐
Global news & analysis
d=4 now works with rank-3 factorization + grokking (311 params trained)