针对原来雨林组织的电锯监测模型,华为通过在真实环境中的应用来不断调整模型精度。在投入初期,雨林组织反馈蚊子的声音经常被误报成电锯声,其实人耳也很难分辨出这两种声音。对这类误报数据,华为开始利用有蚊子声音数据对模型进行重新训练。经过反复测试与提炼,最新的模型应用可以探测到96%的电锯事件。
盗伐行为的发生,不仅使我们失去保贵的原始森林,更威胁着以蜘蛛猴为代表的濒危物种的繁衍生息。蜘蛛猴不仅稀有珍贵,它们还是播种能手,可以通过将植物种子分散到各处帮助树木繁殖,是维持整个哥斯达黎加雨林的生态的重要角色。
保护它,首先需要找到它。在这么大一片丛林中,找到蜘蛛猴真的很难。生物学家每次通常需要花费一整天去追踪蜘蛛猴的踪迹,Ruth就这样做了一年,她觉得工作效率很难提高,而且一天下来很疲惫。为了更好更高效地保护蜘蛛猴,华为与Rainforest Connection (RFCx)携手,构建了蜘蛛猴语言智能分析模型,通过AI技术来识别它的叫声并实时发送精准定位。
但在项目初期,AI 模型识别蜘蛛猴声音也遇到了不少挑战,主要有两点:首先,雨林组织提供的蜘蛛猴声音样本太少,而且很少有人听过,AI 模型没有足够的学习样本;其次,蜘蛛猴叫声是一种变长声音事件,即持续时长不固定,而且蜘蛛猴叫声又可以细分为3类,每类叫声之间又有不小的差异,这些类别之间也是样本及其不均衡。
针对这些问题,华为云AI 技术团队将少量样本与雨林环境进行叠加,生成大量接近真实环境的数据缓解样本过少的问题。然后从“时域”和“频率特征数量”这两个层面着手,将模型的时间检测窗口从1秒降低到了500毫秒,在频率这个范围,频率的特征数量从40提高到96,大大提升了模型检测准确性。
为了更好地帮助AI工程师对蜘蛛猴模型的优化和训练,华为的“动物语言翻译师”会从雨林收集到的声音音频里面,准确地标记出蜘蛛猴声音出现的起止时间。她用一个词来概括了自己的工作角色——AI模型饲养员,因为被她标注的声音数据可以帮助AI模型可以更精准地识别和学习。