askender
askender

创造和分享 Creative Commons: When we share, everyone wins anwen.cc

AI开发笔记与反思

AI研发10年反思

务实的工具

  • 做应用层开发,将用户体验做到极致。理想情况下,将这个交给应用型的工程师,工程师最好有良好的产品意识(作为独立开发者,做小而美的需求)。即使没有,在国内这一块比较卷,适者生存,这一类的开发最接近用户,最不缺需求,做的人也最多。获得营收也是最常见的。

  • 做开源算法和工具改进,持续优化算法效果。这一块慢工出细活,需要大量的高质量数据,很可能需要很多的显卡,大厂有天然的优势,当然也偶尔有小团队异军突起。这一块是对算法有一定追求的算法工程师最常见的工作。

  • 做此前没有的工具,从0到1,也可能做不出来,或者做出来不够实用,但原创性更强,更有创新的感觉,是对科研和创新有追求的研究人员偏好的方向,适合发论文,适合做产品原型和技术前沿探索。

务虚的作品

  • 数学原理上的探索,比如认为当前深度学习的架构在数学上过于简单,想追求一些其他更精妙的东西。这一类容易遇到困境。算是极少数对数学有执念的老派计算机科学家所追求的。瞎猜的,毕竟现在也没啥神经符号主义了,都是联结学派的暴力美学,只有深度学习一条火热的路线。

  • 将AI与艺术结合,类似刘慈欣《诗云》的高级版本,在人类数据海洋中学习模式或者从任务本身的结构中学习,chatgpt, sora, 各种音乐生成,alphazero之类,算是这一派的初级版本。以后,AI辅助小说、电影、游戏的创作,AI辅助3d打印、虚拟世界生成等,也是一条路线。算是将艺术当做游戏的工程师喜欢玩的方向。

  • AI的去中心化,希望用一种对抗资本巨头的方式做出小而美的作品。AI本身也作为去中心化的工具之一,这一条路线是最没有希望的,但也是很有挑战的尝试。

数据与算力

  • 假定在线学习(这个词没人提了),在硬件突飞猛进(边缘硬件也能跑大模型训练,代码热更新,或者大模型自行给自己改进代码,极度重视隐私)的情况下,约等于AI朝着开源硬件和算力、开源数据、隐私得到最佳实践、AI完成去中心化,数据才不是AI垄断的一个危机点。当然,现在欣欣向荣的开源生态,让大家忽视这一点的风险了。

  • 算力差距,貌似也没人考虑了(大家只是默默的追赶)。任何参与这场狂热的人,不会宣称自己算力太少,参与感太低。

个人作为AI研发者的选型

  • 没有门槛的应用层算法,不想做,但为了生活,还是得做的。

  • 算法改进和模型训练这一块,得挤出时间做。目前能做出差异化的方向,语音和3d模型生成,或者下一代的rag

  • 新算法突破,实际由于数学工具和底层工具等各种限制,实际只能在3d生成方面玩一点花样,看能否用更高效的算法完成大家还没做出来的效果。实际也是变相算法改进了。

  • AI和数学的结合,没有时间做到那么底层了,只能学学群论之类的然后在深度学习中实践玩一下。

  • AI艺术,过于大众就没艺术感了,所以比较适合做成自己能玩的开心的民科研究方向,比如3d生成。

  • 去中心化的AI,除了火热的常规开源(以及极少数割韭菜炒作)之外,整体架构的危机没人提,能参与到利益分配的不会提,没有参与的几乎不懂也不可能提。所以这一块的危机,有可能以后没那么严重,或者被新技术顺带解决了。只要开源方案没有被闭源方案甩的太远,就不存在问题。商业机密无法完美保密,所以暂时不用担心终产者。

  • 算力和数据,只能但行好事,莫问前程了

具体的时间分配

  • 70%用于生存的工程开发和算法微改进。这个值在30%-90%之间波动。毕竟留10%的时间用于飞行模式,飞着将问题解决了,谁不想呢。

    • 做一个在准消费级硬件上微调30B以及以上大模型的解决方案以及多模态saas。帮助小企业。 20%

    • 做一个将语音识别以及会议总结做到极致的小而美app,帮助大家提升个人效率。 20%

    • 做一个将个性化语音合成做到极致的小工具,可以用于定制数字人的声音、播客有声书等场景。希望声音能打动自己吧,AI生成的文字只具有功能性,不具有值得反复读的价值,但喜欢的声音是否能做到在AI辅助下可以无限听。我们太过于依赖视觉了。 30%

    • 做一个将rag做到极致,支持知识图谱rag和事实查核的大模型,用于辅助研究者和需要高准确性的场景。 10%

  • 10%用于有一定算法突破的研究。

    • 主要做3d生成吧。我不认为sora能成为世界模型,更符合原生3d的模型我觉得更有希望,nerf、3dgs也只是过渡形态。

    • 事实查核和知识图谱rag作为工程算法,也是工程突破

  • 10%用于AI+艺术的独立应用开发者和独立游戏开发者,毕竟创意的门槛比算法突破还是低很多,做起来也好玩。

    • 辅助生成3d世界(作品展,或者一个有意思的多人交互空间),辅助生成小型游戏

    • 直接开源多人联机游戏,opensource-openworld-mmo-trpg/crpg/nrts/walking-sim

  • 10%用于一些偏哲学,偏自我兴趣的探索。不用算法突破超越别人,不用有趣的demo打动别人,只需要打动自己。算是将AI研发当做业余游戏来玩,用业余时间来做非商业性质AI研发的人我认识的太少了。

    • 这一块随缘,尽量多写,一壁写一壁反思,多多面壁。

CC BY-NC-ND 4.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

第一个支持了这篇作品
加载中…
加载中…

发布评论