jclian91

153
获赞数
12
关注数
77
粉丝数
上海
IP 属地上海
2017-12-11 加入
浏览 22.8k

隐约雷鸣,阴霾天空。但盼风雨来,能留你在此。
隐约雷鸣,阴霾天空,即使天无雨,我亦留此地。

微信公众号: Python爬虫与算法(微信号为:easy_web_scrape)

401 声望|学徒
全站排名超越 96% 用户
python
130
nlp
63
springboot
55
网页爬虫
49
java
42
黄金勋章
暂未获得该勋章
如何获得
白银勋章
暂未获得该勋章
如何获得
1 青铜勋章
个人动态
  • 发布了文章4 月 28 日
    Vibe Coding之AI新闻
    昨天晚上又Vibe Coding了一个网站,网址为:[链接] , 主要用途是爬取TechCrunch, VentureBeat, Verge等网站的AI新闻,并翻译文章标题和对文章内容进行摘要,方便我们更快更好地获取AI新闻。
  • 发布了文章2020-05-07
    NLP(二十九)一步一步,理解Self-Attention
    如果你在想Self-Attention(自注意力机制)是否和Attention(注意力机制)相似,那么答案是肯定的。它们本质上属于同一个概念,拥有许多共同的数学运算。  一个Self-Attention模块拥有n个输入,返回n个输出。这么模块里面发生了什么?从非专业角度看,Self-Attention...
  • 发布了文章2020-04-30
    Python爬虫之记录一次下载验证码的尝试
    好久没有写过爬虫的文章了,今天在尝试着做验证码相关的研究时,遇到了验证码的收集问题。  一般,验证码的加载都有着比较复杂的算法和加密在里边,但是笔者今天碰到的验证码却比较幸运,有迹可循。在此,给出本爬虫的相关记录。  注意,文章和代码中均不会给出相关...
  • 发布了文章2020-03-21
    NLP(二十七)开放领域的三元组抽取的一次尝试
    当我写下这篇文章的时候,我的内心是激动的,这是因为,自从去年6月份写了文章利用关系抽取构建知识图谱的一次尝试 后,我就一直在试图寻找一种在开放领域能够进行三元组抽取的办法,也有很多读者问过我这方面的问题,今天,笔者将给出答复,虽然不是正确答案(现在...
  • 发布了文章2020-03-15
    NLP(二十六)限定领域的三元组抽取的一次尝试
    本文将会介绍笔者在2019语言与智能技术竞赛的三元组抽取比赛方面的一次尝试。由于该比赛早已结束,笔者当时也没有参加这个比赛,因此没有测评成绩,我们也只能拿到训练集和验证集。但是,这并不耽误我们在这方面做实验。
  • 发布了文章2020-03-14
    Numpy之数据保存与读取
    在pandas使用的25个技巧中介绍了几个常用的Pandas的使用技巧,不少技巧在机器学习和深度学习方面很有用处。本文将会介绍Numpy在数据保存和读取方面的内容,这些在机器学习和深度学习方向也大有用处,因为通常我们会采用Numpy和Pandas处理数据,尤其是Pytorch,它和Nu...
  • 发布了文章2020-03-14
    TortoiseGit的首次使用
    TortoiseGit 简称 tgit, 中文名海龟Git。TortoiseGit是一个开放的Git版本控制系统的源客户端,具有Git操作的图形用户界面(GUI)。TortoiseGit 支持Winxp/vista/win7/Win10,提供多言语支持。  本文将介绍如何使用TortoiseGit来管理Gitlab上的项目。  这里不再介绍...
  • 发布了文章2020-03-12
    NLP(二十五)实现ALBERT+Bi-LSTM+CRF模型
    在文章NLP(二十四)利用ALBERT实现命名实体识别中,笔者介绍了ALBERT+Bi-LSTM模型在命名实体识别方面的应用。  在本文中,笔者将介绍如何实现ALBERT+Bi-LSTM+CRF模型,以及在人民日报NER数据集和CLUENER数据集上的表现。  功能项目方面的介绍里面不再多介绍,笔者只...
  • 发布了文章2020-03-11
    NLP(二十四)利用ALBERT实现命名实体识别
    本文将会介绍如何利用ALBERT来实现命名实体识别。如果有对命名实体识别不清楚的读者,请参考笔者的文章NLP入门(四)命名实体识别(NER) 。  本文的项目结构如下:  其中,albert_zh为ALBERT提取文本特征模块,这方面的代码已经由别人开源,我们只需要拿来使用即可...
  • 发布了文章2020-03-10
    NLP(二十三)序列标注算法评估模块seqeval的使用
    在NLP中,序列标注算法是常见的深度学习模型,但是,对于序列标注算法的评估,我们真的熟悉吗?  在本文中,笔者将会序列标注算法的模型效果评估方法和seqeval的使用。
  • 发布了文章2020-03-06
    Python之生成项目依赖包文件requirements.txt
    我们在平时写Python工程项目的时候,常常需要生成第三方模块依赖包文件requirements.txt,用于声明该项目所需要的Python的第三方模块,同时也方便别人阅读。  为了能够方便快速地生成requirements.txt文件,我们可以借助Python的第三方模块:pipreqs,其官方网址为:...
  • 发布了文章2020-03-05
    知识图谱构建举例
    笔者在去年的时候,给出了利用深度学习来构建知识图谱的一次尝试,文章为:利用关系抽取构建知识图谱的一次尝试 ,本文将会更出更多的例子,也是笔者近一个星期的忙碌结果。  下面为知识图谱构建的例子,由笔者原创,是从新闻或者小说中直接抽取而来,加上大量时间的...
  • 发布了文章2020-03-04
    tqdm, pyyaml, traceback的使用
    本文将会介绍3个Python第三方模块的使用方法,它们分别是tqdm, pyyaml和traceback模块,各自的用途描述如下: tqdm: 可以显示循环的进度条; pyyaml:Python操作YAML文件的库; tracebak:详细追踪错误信息的库。   下面将会给出这3个模块的简单介绍和使用。 tqdm   ...
  • 发布了文章2020-03-04
    NLP(二十二)利用ALBERT实现文本二分类
    在文章NLP(二十)利用BERT实现文本二分类中,笔者介绍了如何使用BERT来实现文本二分类功能,以判别是否属于出访类事件为例子。但是呢,利用BERT在做模型预测的时候存在预测时间较长的问题。因此,我们考虑用新出来的预训练模型来加快模型预测速度。  本文将介绍如何...
  • 发布了文章2020-02-24
    Keras入门(六)模型训练实时可视化
    在北京做某个项目的时候,客户要求能够对数据进行训练、预测,同时能导出模型,还有在页面上显示训练的进度。前面的几个要求都不难实现,但在页面上显示训练进度当时笔者并没有实现。  本文将会分享如何在Keras中将模型训练的过程实时可视化。  幸运的是,已经有人帮...
  • 发布了文章2020-02-22
    Windows系统下使用Docker的踩坑记录
    使用MySQL镜像会报错,报错内容为:[ERROR] InnoDB: File ./ib_logfile101: 'aio write' returned OS error 122.
  • 发布了文章2020-02-19
    Python之Windows系统文件保存错误
    在本文中,将记录笔者今天遇到的一个Python问题,即:由于操作系统的不同,保存文件名会产生问题。  我们以Mac系统和Windows系统为例,使用下面的Python脚本来保存一个Excel文件,代码如下:
  • 发布了文章2020-02-18
    NLP(二十一)人物关系抽取的一次实战
    去年,笔者写过一篇文章利用关系抽取构建知识图谱的一次尝试,试图用现在的深度学习办法去做开放领域的关系抽取,但是遗憾的是,目前在开放领域的关系抽取,还没有成熟的解决方案和模型。当时的文章仅作为笔者的一次尝试,在实际使用过程中,效果有限。  本文将讲述...
  • 发布了文章2020-02-13
    pandas使用的25个技巧
    本文翻译自[链接] ,翻译如有不当之处,还请批评指正。  首先我们需要先提前下载好示例数据集: drinksbycountry.csv : [链接] imdbratings.csv : [链接] chiporders.csv : [链接] smallstockers.csv : [链接] kaggletrain.csv : [链接] uforeports.csv : [链接] 利...
  • 发布了文章2020-02-12
    NLP(二十)利用BERT实现文本二分类
    在我们进行事件抽取的时候,我们需要触发词来确定是否属于某个特定的事件类型,比如我们以政治上的出访类事件为例,这类事件往往会出现“访问”这个词语,但是仅仅通过“访问”这个触发词来判断是否属于出访类事件是不可靠的,比如我们会碰到以下情况:通过上面的例子,...