赞了回答2017-09-08
Math.random()*10+10; 你要取整就parseInt()
回答了问题2017-09-08
把所有维度变量都换成dimension_value的形式, 每个维度假如有N个不同值, 就生成N-1个特征. 这样就区分出来了性别(有2个不同值, 生成1个特征) => 性别_男 取值1 or 0城市(假如有10个, 生成9个特征) => 城市_1, 城市_2, ..., 城市_9 取值1 or 0, 所以前9个城市在...
回答了问题2017-09-08
reddit有开源它们的热门排序算法[链接]
回答了问题2017-09-08
网页的domain, /的个数, /分隔的每部分是什么(单词/纯数字/字母加数字), 这样给每部分打上tag. 比如www.abc.com/item/item-12345.html就是www.abc.com/单词/字母数字符号.html然后可以在这个基础上去统计分布, 算字符串的编辑距离等等
回答了问题2017-09-08
不平衡到底是有多不平衡, 如果是超出1:100的话, 可以尝试一下SMOTE进行over sampling(better than under-sampling), 大多数情况下使用SMOTE会提高f1/AUC, 但通常情况下不平衡意味着cost-sensitive, 即对FP和FN的代价是不同的, 要具体分析
回答了问题2017-04-20
mysql不支持rank方面的函数...在oracle, postgres等等比较强大的数据库里面可以很方便用row_number()实现假如数据库的column是id, age, heightselect id, age, height,row_number() over (partition by age order by height desc) as rnfrom tb
回答了问题2017-02-18
恩, 就是position
回答了问题2017-02-06
用selenium吧
关注了问题2017-02-06
回答了问题2017-01-21
你可以理解为结构化数据和半结构化数据都是key-value结构的, 只不过结构化中所有数据keyset是相同的固定的, 半结构化中keyset是不固定的, 你永远也不知道哪天会有新key加入
关注了问题2017-01-21
回答了问题2017-01-21
只需要证明log(k+1)-log(k) > 1/(k+1)就可以了根据中值定理, 对于连续光滑的函数f(x)中的任意两点a, b(a<b), 一定存在a<c<b使得f'(c) = (f(b) - f(a)) / (b-a)所以令a=k, b=k+1, 一定存在c使得1/c = log(k+1) - log(k)因为c<k+1, 所以1/c > 1/(k+1...
关注了问题2017-01-21
回答了问题2017-01-20
r = requests.get(url, proxies=proxies)r.encoding = r.apparent_encodingprint r.text
关注了问题2017-01-20
回答了问题2017-01-19
用Jsoup吧 {代码...}
关注了问题2017-01-19
回答了问题2017-01-19
考虑bitmap, 参考[链接]RoaringBitmap aBM = new RoaringBitmap()for (int i = 0; i < a.length; i++) {
关注了问题2017-01-19
赞了回答2016-05-17
还有比抓ajax返回json 更好抓的页面吗???