字体
关灯
上一章 目录 下一页 进书架
    第379章:熔断与暗痕,暗室微光 (10 / 12)

        严飞立刻走到他身后,安娜和凯瑟琳也在场。

        “我重新梳理了‘牧马人’‘超写实图像生成模块’的完整训练日志和进化树。”莱昂快速调出复杂的图表。

        “这个模块的早期版本,大概在一年半前,其训练数据集中被混入了一批‘标记模糊’的素材,这批素材主要是各种政治人物的公开演讲、访谈、以及……一些非公开场合的抓拍画面,画面质量参差不齐,来源标签也很混乱,当时负责数据清洗的初级算法员以为只是普通的多源数据补充,没有深究。”

        他放大其中一部分数据记录:“但现在看,这批‘模糊素材’里,有相当一部分人物的影像,其采集角度、光照条件、以及场景特征,与这次伪造视频中使用的‘肖恩’和‘你’的影像特征,存在统计学上的显着相关性!更重要的是,在对这些素材进行特征提取和编码时,训练算法被一种非常巧妙的‘注意力权重微调技巧’影响过,导致模型在后期的生成过程中,会不自觉地‘偏好’生成具有类似特定光影效果、微表情动态特征以及背景融合方式的图像——恰恰就是这次伪造视频所呈现出来的那种‘高度逼真但略带某种风格化’的效果!”

        “你是说,有人在一年半前,就通过污染训练数据、微调算法的方式,给‘牧马人’的这个模块埋下了‘后门’或者‘倾向性’?”

        安娜迅速理解,沉声道:“当自由灯塔需要制作针对肖恩和老板的深度伪造视频时,他们可能并不需要盗走完整的代码,只需要知道这个‘后门’的存在,并利用类似的技术架构(可能源于共同的技术源头,比如严锋提到的‘昆仑’理念外流),就能制造出高度相似的产品?”

        “没错!”莱昂用力点头说:“这就解释了为什么技术特征相似,但我们内部却查不到直接的代码泄露,内鬼可能根本不存在,或者,内鬼的工作不是在近期盗取代码,而是在更早的时候,悄无声息地‘污染’了我们的数据源和训练过程!这个人,或者这股力量,必须对‘牧马人’项目的早期数据管理和训练流程非常熟悉,并且拥有足够的权限进行这种精细操作而不被立刻发现。”

        一年半前……那正是“牧马人”项目从“先知”系统升级而来的关键研发期,有权限接触核心数据管理和训练流程的人,范围比能接触成熟代码的人要广一些,但也绝对是核心研发和运维团队。

        “名单。”严飞吐出两个字。

        莱昂立刻调出一份名单,上面有二十几个名字,涵盖了当时数据团队、算法团队、以及项目管理的关键人员。

  The content is not finished, continue reading on the next page
  • 上一章 目录 下一页