演讲人:Brain Johnson@ebay
主题:ebay的大数据
最大印象:努力很大,投入很多,但效果一般(5% better / year)
片段:
“big is not the case, detail is.”
关于 搜索key word expansion,他讲了很多情况中是不是要把搜索关键词的相关词也纳入搜索范围,比如加s的复数。但在会出现加了s就是毫不相关的东西,例子忘了。另外,在人们搜索diary的时候,很多人想找的是吸血鬼日记,而不是笔记本。在人们搜索basketball的时候,大多数人想找的是篮球鞋,而不是篮球。我的第一影响力可以用搜索后,点击商品的类别来自动划分不同key word的expansion。
他还略过了一句话,其实也是我很想问的。那就是他说算法不重要(大概意思),数据更重要。为啥?
刚开发的时候,ebay投了几千万美元(具体忘了),结果由于所带来的改进,几个月(具体忘了)就赚回来了。看来有和无的差别是巨大的。
他还分享了任务的data flow pipeline:
- production
- behavioral item data analysisi
- feature generation
- classification prediction
- offline analysis
- human judgment
- a/b test
(完)