威客电竞数美科技智能图片识别怎么样助力图片审核提效80%|数美人工智能研究院

2023-10-09 13:17:11 winterfell

  威客电竞威客电竞大数据时代,给人最明显而直接的感触就是信息量突然变得庞大而多样。据IDC统计,预计2020年全世界所产生的数据总量将增长44倍。

  显然,单一的长文本已经无法满足手机网民多样化的阅读、交流需求,图片、视频类信息内容在阅读上也简洁直观,更吸引人。在信息交互方式上,网民从纯阅读行为,可以体验到点赞、评论、转发等多种交互行为模式。

  据Facebook统计,Facebook每天产生4PB的数据,包含100亿条消息,以及3.5亿张照片和1亿小时的视频浏览。此外,在Instagram上,用户每天要分享9500万张照片和视频,Twitter用户每天要发送5亿条信息。从这类数据上看,在各类互联网平台上,除了文本信息,随处可见的就是图片信息。

  所以巨量图片暴露出来的风控隐患不得不引起互联网平台的重视。例如大量涉政、低俗、暴恐等违法违规内容信息潜藏在各种图片中,而这类图片也带给用户极差体验感,无意点击甚至会引发盗号危机,让人防不胜防。

  根据《中国互联网络发展状况统计报告》显示,截至2019年6月,我国网民规模达8.54亿,互联网普及率达61.2%,手机网民规模达8.47亿,在手机互联网应用发展方面,网络支付、网络文学、网络音乐、即时通信、网络购物和网上外卖的用户规模半年增长率均超过5%。

  所以当前,互联网平台主要还在分享近十亿手机网民带来的红利,覆盖面已经广泛涉及到、电商、社交、教育、航旅、游戏等行业,且这一红利还在不断增长。

  从网民的组成结构来看,2019年我国未成年网民规模为1.75亿,未成年人互联网普及率达到93.1%。由于未成年人汲取知识能力强,个人价值观和世界观的认知大多是从网络信息获取而来,所以网信办对未成年人网络环境的关注会更为深入与密切。

  每天面对成千上万种各类APP和公开型社交网站的内容输出,数美人工智能研究院发现,在泛娱乐场景下的漫画、网文、游戏、直播、视频等应用,部分图片会涉及到校园暴力、霸凌等网络有害信息,极易误导甚至扭曲未成年人价值观,严重影响未成年人健康文明上网环境。

  结合“净网2020”专项行动,公开数据显示,截止2020年9月,全国网信系统累计暂停更新网站64家,会同电信主管部门取消违法网站许可或备案、关闭违法网站6907家。有关网站平台依据用户服务协议关闭各类违法违规账号群组86万余个。

  因此,互联网平台该如何应对图片信息带来的违法违规风险?数美人工智能研究院得知,内容审核方面,互联网平台不再完全依赖于人审,不仅成本高耗时长,还无法满足当前巨量图片的审核需求。而图片智能识别技术不仅是内容审核的重点,也是互联网平台一直想要攻克的难点。

  数美人工智能研究院研究发现,不同的互联网平台,对图片内容的审核标准截然不同。随着视频、图片数据量的不断增多,最高效的方法当是解放人审的初审压力,应将人审放在监管和抽查岗位上。

  针对不同场景下的审核标准和审核需求,数美人工智能研究院采用基于深度学习的图片识别技术和基于画像的用户行为分析技术,构建强大的图片识别引擎,精准识别图片中涉黄、涉恐、政治敏感内容、欺诈广告等违规违法内容,并对低俗污秽等内容进行程度分级,有效识别低俗、辱骂内容,适应平台不同审核标准。

  此外,数美人工智能研究院依据国家政策法规要求与海量图片库、图片主要违法违规内容,分为以下四类识别方式:

  涉政违规识别:基于海量人脸库和专业审核人员的审核标准,利用深度学习技术,识别正常、漫画、恶搞、负面涉政人物的违规信息,降低违规风险,覆盖涉政人物500余个。

  政治敏感人物库尽可能覆盖全面,包括国家领导人、敏感事件人物、英雄烈士等,形式包括蓝底照片、生活照片、历史照片、漫画恶搞、代表形象等。实时监测政治敏感事件和热点事件,发现问题图片及时加入政治敏感人物库中。

  暴力恐怖识别:通过海量暴恐图片库,依托深度学习引擎,支持国旗国徽,,军装,道具,血腥暴乱,儿童邪典等不同类型的图片识别。国旗国徽包括主流国家国旗国徽、各大政旗徽、香港特别行政区区旗徽、澳门特别行政区旗徽、共青团旗帜或团徽、国内各种军徽章等。

  色情污秽识别:利用大规模GPU集群和深度学习技术,准确快速稳定地识别色情,低俗,性感图片,解决直播,视频,电商,社区网站,论坛等图像内容的黄反问题。

  帮助企业降低传播污秽、色情、低俗内容的风险,大规模提升人工审核团队效率,增强用户浏览体验。支持重度色情、色情、性感、低俗、正常等多种级别,灵活适应不同应用、场景、角色的个性化审核标准。

  广告及变体识别:通过OCR识别、垃圾文本识别、广告分类模型,识别手机号,微信,QQ,淘宝,微博,网址,二维码,水印等近10种联系方式及其变体。

  针对不同的识别场景,数美人工智能研究院创建了可视化Web审核后台,即智能图片过滤提供API调用接口和可视化Web审核后台,可以在趋势分析中查看风险内容的趋势,在历史记录中查看筛选内容详情,在名单服务中自定义添加和管理敏感图片。

  在技术实现上,数美智能图片过滤采用业界一流的图片识别技术,包括基于海量图片样本和大规模GPU计算的深度学习,图片相似度匹配算法,基于用户画像的行为分析等。

  其中,在色情识别、暴恐识别、广告识别等场景下,数美人工智能研究院利用图片分类模型,即智能图片过滤基于Inception深度定制图片分类模型,也能成功实现,且效果显著,识别精准度高达99%以上。

  2012年AlexNet做出历史突破以来,直到GoogLeNet出来之前,主流的网络结构突破大致是网络更深(层数),网络更宽(神经元数)。为了增加网络深度和宽度的同时减少参数,Inception应运而生。

  Inception 模型的网络,将1x1,3x3,5x5的conv和3x3的pooling,堆叠在一起,一方面增加了网络的width,另一方面增加了网络对尺度的适应性。

  此外,除了上文提到的图片分类模型,深度学习模型还包括目标检测模型、人脸识别模型等多种。针对不同的识别模型研究分析,智能图片过滤基于YOLO优化目标检测模型,可应用于LOGO检测、特殊物体检测等场景;以及基于MTCNN实现人脸检测,针对亚洲和中国人脸进行优化,应用于涉政人物识别等场景。

  在技术优势上,数美智能图片识别具有精准识别图片内容风险、海量图片数据样本、标准灵活策略定制、完善用户画像系统等优势,对于互联网平台的图片审核给予高效的协同能力,弥补其在高本低效方面的短板。

  例如,以全人审核300人为例,工作制8h/天,工资8000元/月来算,每人最多可审核300*30000张图片,但是将耗费2880万/年的成本。但是全量机审+人审配合,原人审每天900万张图片,便只需要7人来完成,成本只需67.2万/年。通过以上数据显示,数美科技智能图片识别可直接助力图片内容审核提效80%。

  数美科技智能图片过滤系统采用模块化程序设计方法,既便于系统功能的各种组合和修改,又便于未参与开发的技术维护人员补充、维护。

  数美科技长期深耕在图片内容审核领域,现已服务全球千家客户,全心全意为客户的在线业务风控提供全方位支持。