用“小模型”让AI无处不在！青岛这家公司抢占轻量化大模型赛道先发优势-观海新闻

用“小模型”让AI无处不在

青岛自然语义公司抢占轻量化大模型赛道先发优势，探路个人专属模型

自大模型进入公众视野，动辄几千亿、上万亿的参数量已经司空见惯。大模型的行业机会，是否只剩“卷参数”一条路可走？在青岛自然语义公司，另一种可能正在被探索和实践。

今年3月，自然语义自研的Euler大模型通过中央网信办生成式人工智能服务备案，成为全省首个通过中央网信办备案的基础大模型。不同于其他基础模型动辄千亿级的参数量，Euler的参数量只有2.5B（25亿），属轻量化大模型范畴，自然语义则俗称它为“小模型”，在算力消耗、使用成本等方面具有显著优势。

在自然语义看来，“小模型”在生成式人工智能的行业落地中更具意义。未来，大模型和“小模型”将各司其职，推动人工智能技术向前发展。

通过备案后，Euler将在今年开展面向个人用户的服务。“用户能够更容易训练出属于自己的大模型，并且支持离线使用。”自然语义（青岛）科技有限公司联合创始人孙燕群说。

“小模型”也有大作为

“大模型正在变得无所不能，为何还需要‘小模型’？”近几个月，随着产品正式上线的脚步越来越近，自然语义接受的采访逐渐多了起来，“小模型”的市场空间是被问得最多的一个问题。

“大模型追求无所不能，但只有‘小模型’才能无处不在。”孙燕群说，虽然千亿级参数的大模型容纳了大量的知识，看起来什么都懂，但这些知识都是通识，还有大量有价值的知识沉淀在专业企业或者专业个人的电脑中。

“比如律师打官司的角度和策略、中医积累的病例，这些都是十分值钱的专业知识，不会公开到互联网上让大模型训练。如果有一个在单台笔记本电脑上就能运行起来的模型，就可以很好解决这一问题，让AI大模型能够无处不在地真正服务于每一个人。”孙燕群说。

自然语义关于行业的判断在现实中已经得到了印证。2022年前后，自然语义开始启动Euler模型研发。而几乎与此同时，全球科技大厂也纷纷瞄准轻量化，开始布局“小模型”。谷歌、微软、苹果乃至OpenAI等都发布了参数量在几十亿量级的“小模型”。

相较动辄需要用几万块英伟达芯片训练的千亿级参数量大模型，“小模型”训练成本更低。但对并不差钱的科技大厂来说，“小模型”更具吸引力的地方在于商业落地价值。

模型参数量越大，使用一次的成本也越高。与此同时，很多企业在使用时出于数据安全等因素的考量，会更倾向于私有化部署，这进一步推高了使用成本。有行业人士曾透露，2023年时一个千亿参数大模型一年私有化授权费用是几千万元，而私有化部署之后，还要购买服务器，大概需要几百万元。

“小模型”也便于用户进行再训练。“几千亿参数的大模型，企业或个人的数据投喂进去就好像一颗小石子扔到了汪洋大海中，根本掀不起浪花。‘小模型’就容易多了，会立竿见影，变得非常有个性。”孙燕群表示。

在孙燕群看来，未来会有越来越多企业切入“小模型”赛道，包括互联网大厂，而自然语义在该领域已经拥有了先发优势。“目前通过备案的小于6B的大模型只有我们一家。从全球来看，谷歌Gemma的参数也在2B左右，但它的中文水平远远不及我们的模型。”他说。

从开源算法到通用大模型

能够在轻量化大模型赛道上率先起跑，自然语义的技术优势发端于一个自然语言算法开源项目——HanLP。

HanLP是团队早期开发的一款面向生产环境的自然语言处理工具包，能够让计算机拥有文本理解和文本分析能力，支持语言超过100种，是AI开发的重要工具。在普通人熟悉的智能客服、舆情监测、机器翻译等场景都能够进行应用。

“在全球最大的开源社区GitHub上，HanLP已经取得了超过35100个加星，有10600个开源项目依赖HanLP开发，是用户数量最多的自然语言处理技术，超过微软和百度在社区发布的同类项目，用户既有华为、百度、京东、小米、字节跳动、史克葛兰素等头部企业，也有MIT、中国科学院、北京大学、复旦大学、暨南大学等高校及科研机构。”在孙燕群看来，HanLP无疑是全球自然语言处理领域首选的基础算法和事实上的技术标准。

在HanLP算法的基础上，自然语义研发了轻量化大模型Euler。虽然参数量少，但仍要保证相对较好的性能，为了做到这一点，自然语义开创性引入了符合汉语语言习惯的分词算法，使得大模型在token（最小知识单元）阶段就有了处理上下文逻辑的能力。

孙燕群做了一个通俗的解释：“比如说‘蓦然回首那人却在灯火阑珊处’，这句话很少会拆开使用，我们就会将它做成一个token而不是拆开，这样就能节省大量神经网络空间。”

与此同时，Euler还引入了公司首席科学家、世界著名数学家夏志宏教授的最新理论成果——柯西积分算法，在模型的计算原理上进行了创新，不仅使模型能够在参数有限的情况下容纳更多知识量，还能让模型在无监督学习阶段就学习到语言的逻辑性，大大增强了“小模型”的效果。

“经过4个月训练，动用了15万亿汉字的数据量，我们终于在一个不到3B的模型上，实现了一个类似千亿级模型的效果。”孙燕群说。

个人专属模型近在眼前

拿到中央网信办的大模型备案之后，孙燕群十分兴奋。“终于可以提供互联网在线服务，上线‘数字生命计划’了！”他说。

在通过备案之前，自然语义的大模型已经开展了面向企业的服务，收入在千万元级。而孙燕群口中的“数字生命计划”，则是自然语义面向个人用户即将提供的服务。

正如孙燕群在采访中反复提及的对生成式人工智能大模型的理解，行业除了要不断探寻技术的极限之外，还要让每个人都能真切享受到AI带来的便利，这才是人工智能的意义所在。

据介绍，“数字生命计划”上线后，个人用户可以上传自己的数据训练个人专属模型。“‘小模型’可以真正做到千人千面，一个人甚至可以训练多个不同的模型，帮助解决不同的问题。”孙燕群说，初期会率先上线网页版，后续会开发App。

此外，Euler也能够支持信创环节，支持多平台的本地运行，能够确保数据和隐私安全。

今年，自然语义会加大市场推广力度，通过线上线下等多种渠道，让产品和服务被更多的个人用户知晓和使用。

当前，通用大模型似乎已经成了有资金、有资源的互联网大厂才能入场的“专属”赛道。自然语义正尝试用聪明的“小模型”打破这一局面，闯出行业发展的新范式。“我们的目标是让人工智能不再依赖少数大公司，而是让每一个人、每一家中小企业都能有自己说了算的大模型。”孙燕群说。（青岛日报/观海新闻记者孙欣）

青岛日报2025年5月31日1版

责任编辑：孙源熙