background picture of the home page

技术成长之路

The Road to Programming

阿里巴巴集团数据技术及产品部招人啦

🌟 我们是? 阿里控股-数据技术及产品部!我们专注于数据技术与产品,正在寻找志同道合的伙伴,一起打造从数据采集到模型训练的全链路解决方案。 🔍 我们在找谁? 数据开发达人:P5/P6,数据的魔法师,让数据流转得更高效! 数据采集高手:P5/P6,数据的猎人,捕捉每一个有价值的数据点! 算法大师:

thumbnail of the cover of the post

基于RoBERTa的命名实体识别算法

业务背景 最近接到业务需求,需要对商品的spu和sku进行处理,提取商品的颜色、版本等关键属性。然而源数据的spu和sku杂乱无章,没法直接通过规则处理,所以自然就想到了通过深度学习算法进行处理。在查阅了其他bu的同事们写的经验文章之后,决定使用RoBERTa中文预训练模型自动提取属性词。 RoBE

thumbnail of the cover of the post

桶去重算法

去重处理是数据清洗作业中的核心环节之一,尤其是在处理那些容易滋生大量近似但不完全一致数据的数据集时,其重要性更为凸显。尽管哈希算法常被用作快速去重手段,但它在面对细微差异的记录时可能力有未逮,难以精确辨识所有重复情形。因此,深入到记录的语义层面,计算数据间的相似度成为必要之举。然而,当数据规模膨胀至

thumbnail of the cover of the post