Developing Search Tool for Acfun

When the self-owned search function was cancel by the monkey, I planned to develop this tool. After thinking and strolling in my room for 2 hours, I thought I had known what to do and started to make it.

当猿把ac娘自带的搜索引擎吞了,我便开始计划做这个工具。经过2小时的构想和到处乱走,我感到自己已经知道要怎样弄了,于是开工。

Python, which I fought for this semi-finished Acfun Search Tool with, was new for me 3 days ago. I had a chance to choose a script to develop the tool, for I’ve know nothing about technique newer than JAVA. Finally I chose Python, because:

我花了3天完成现在的半成品,用的是Python,一种从来没用过的语言。我可以考虑用任何脚本语言,反正所有比JAVA要新的语言我都不会用。用Python的原因是:

  1. It worked immediately after it was installed without any other configurations.
  2. It ran as a double-click rather than “python yourname.py<enter>”, like VBScript. It is much shorter, isn’t it?
  3. For the reality. Google App Engine has supported it, and I meant to put the tool there to benefit from the powerful Google. Later I realized that GAE has maximum of 1M for data-transfer, so I changed my hosting place.
  1. 装好以后就可以用了,不用任何附加设置。
  2. 程序文件双击就可以执行,像VBS一样,不需要用命令行执行。对我来说这很重要,因为够简单,哈哈。
  3. 实际上是因为Google App Engine支持它。原本我打算在GAE上放这个程序,以便利用实力强大的Google,但我很快发现GAE只支持1M以内的数据读写,于是我改放到其它免费空间中。

At the very start, I planned to fecth all the data from acfun.cn first, keep it up to date, and built a RSS feed for it so others can secondary exploite it, but I decide to finish the search function first. I spent 2 days grabing datas from Acfun, modifying my crawler to suit to the irregular but met frequently data for several times, and change the data-structure from CSV file to SQLite database(CSV has been used for GAE). When Acfun became busy at prime time, I had to pause the crawler.

最初我打算先抓取全部数据,然后制作RSS,那样其他人也可以用这些数据来二次开发,但我决定还是先做出搜索功能。花了2天去抓数据,途中对爬虫进行了几次修改,又将数据格式从csv改成SQLite数据库(当初考虑用csv是因为GAE)。当Acfun进入访问黄金时间,就只能暂停抓取。

Finally the crawler accompalished its mission and was reformed to keep the data new. I’ve been aware of Python web frameworks such as django, but I decided to use CGI script, because it’s much easier for me who knows nothing about frameworks or MVCs or MVTs. When I directly use the hosting to test my scripts, my work increasing geometrically. Now it works, although hardly with user-interface.

数据抓完后,我便将爬虫改成数据更新器。虽然留意了很多Python的web架构,但我完全不懂那些东西,所以还是决定用最简单的Python CGI Scripts。因为要在远程服务器上调试,所以工作量非常大,无论如何现在是弄好了,但几乎没有任何用户界面……能用就行。

I’ve published to TIEBA of Acfun so as to ease maybe some load of Acfun Server. I hope people will benefit from it, and I have to go back to revise now. Visit @ http://illustrate.heliohost.org/ac.htm.

已经在Acfun吧发布了,希望能够帮到人并且减轻Ac娘的负担,我要回到复习状态……访问上面的网址就可以使用这个工具。

人肉搜索成功

没错,就是人肉搜索,而且只是我一个人干哦。

不是有个理论叫六度空间理论吗,那是一种信念,人肉搜索的信念。

今天的考证目标是一个歌姬,她的歌获得了巨大的成功,本人却在表世界中销声匿迹了。

她的名字也是一个普通的日文词语而已;幸亏她有一个用来放歌的网站,这个网站有一些社区功能,尽管都是很鸡肋的功能而已。

最终导致成功的切入点是她的好友。尽管她的名字和她好友的名字共同搜索并没有得出什么有价值的结果,但是在寻找她所活跃的社区的过程中,尝试将她的任意两个好友的名字放在一起搜索,找到了一个她的可能性的博客,然后在博客中最终发现了她放歌的网站的连接,最终确认了她是那个博客的所有人。

于是了解了很多关于她的事情:

1、06年只是一个初二的学生,所以是个大约92年生的小mm;
2、腐女;
3、喜欢钢炼;
4、有严重的中二病,初二……不,也许是更早的时候就已经陷入如此复杂的感情漩涡之中,现在的小碰友到底是怎样活下去的啊……
5、尽管容易中二病发作,但恢复也很快,各种各样的感情都能够随意地写出来,就算有时候确实写得不怎么样……
6、大约是由于最近的作品招惹喷子了,目前稍微有点失落,歌姬事业有所消沉……

大概还可以进一步考证下去的,不过到现在的水平已经超出人类社会发展平均水平了,就足够了。

赶快成长起来吧,XXX【绿·坝·娘:“随便发人家网名什么的最讨厌了,屏蔽掉屏蔽掉~”】酱。

 

触手之路

以下文字错漏百出,不代表人类的观点,请勿非议。
0、为什么有这篇
在这系列介绍中,『触手』并不是在说某系列的工口游戏的常见生物,也不是说现实中或生物学上常见或常用的动物或植物的某个部位,而是有着互联网——这样说也许太大,应该说是二次元世界的『Accessable』概念的代名词。所谓的Accessable,通俗来说就是,如何找到想要找到的东西;如果要再加上别的意义,那还有一个就是,如何避开不想找到的东西。
本文存在的意义在于二次元世界的特点:说它肥猪流,不对,到处都是ACG;说它主流,也不对,因为三次元世界占据了大量的二次元关键词。但二次元是一个很个人的世界,简单来说就是,每个人都有自己的二次元,两个人的二次元世界之间的重合度,我想,近乎于0——这个观点的正确性我想可能不高,因为要真正找到自己喜欢的二次元本身就是非常困难的事情,大部分人,也许只能在主流的二次元中找些自己喜欢的东西,对于许多人来说,无法掌握有效的触手,很多美好的期待只能成为空想。
遗憾的是,本文并非能让你知道自己喜欢什么的心理测试,而只是个可能可以协助你更好地找到你想找的东西的技巧集。我不知道自己由于什么原因决定写这个,也许最有效的借口就是自己整理下自己的触手思路以备日后查阅。无论如何,如果本文竟然能够帮助到别人,我会很高兴的。

0.5、使用本文的几个技巧
1)不要被各种『主义』所左右。包括某软件很可恶啊,某国家很可恶啊,某网站很可恶啊这种。唯一的目标就是找到想要的东西,为了达到这个目标什么都可以忍耐。
2)做好安全措施。尽管有毒的触手不是好触手,但是触手有中毒风险。Ads:FF、360,还有硬件路由器,无敌了。
3)不要怕麻烦。原因参考1)。

1、通用触手
没有比搜索引擎更加通用的触手了。说起搜索引擎,我们马上能够想到Gogole和badiu。其实通用触手还有人气的动漫论坛,不过其使用如果配合了前两者的话会更好。使用通用触手,有以下几个技巧:
1)使用双引号把要搜索的不可拆分关键词引用起来。除了过滤掉无关的结果(例如搜索『仰望半月的夜空』,很容易出来包含『仰望』『半月』『夜空』三个词的无关网页,使用双引号把这个短语引住,可以过滤掉这些结果),还可以让该关键词有更大的概率出现在搜索结果摘要上,以协助自己判断是不是需要的东西。对于确信的关键词,请务必使用;对于并非确信的关键词,请务必不要使用,期待模糊搜索能够给你找到确信的关键词。
2)尝试使用曰文/鹰文名去搜索。呆丸风格的结果通常是喜欢使用作品的曰文原名而不是翻译名,而晒方国家的结果通常是鹰文(废话!),所以这是值得尝试的技巧;如果怕搜出完全看不懂的曰语结果,请选择搜『中文网页』而不是『所有网页』。
3)使用『-“关键词”』来过滤掉大量出现的无关内容。以在badiu搜索『diky』为例,在接下来的几页里面,我们可以发现不少『预约后母』的关于diky是一只狗的搜索结果(T_T),请使用『-“后母”』来过滤掉这些结果,记住,『后母』要加双引号。
4)使用关联关键词协助搜索。假设要搜索大萌神的内容,为了以防出现人气比大萌神高的但又和大萌神重名的结果(虽然显然是不可能的),可以同时加上作品名或者神的名字或神之开关的名字作为关键词,以便把这些结果排除掉。这个技巧只是个值得一试的技巧,因为错杀的结果会很多,更好的方法应该是3)。
5)使用『site:某网站域名』来限定在某一网站中搜索结果。这个技巧的一个使用情况是搜索特定网站中的某内容,另一个是作为某个网站自带搜索引擎(通常是搜索能力不够好的引擎)的替代品,例如febnei和afcun,用gogole搜索会更有效,当然两者都用一下才是王道。
6)使用『网页快照』。这是个很邪恶的工具,因为通常我们只是想要里面的内容(例如网页中的图片地址、逊蕾地址等)而不是这个网页本身,所以对于已经失效的网页(或者无法直接访问的/已删除的网页,又或者以前可以匿名访问,现在要登录才能访问的论坛页面),可以使用这一工具。gogole.com的快照要穿越才能访问,推荐用gogole.cn的快照;而badiu快照一向很好很强大。
通用触手的使用心得:
当我们有了一个要触手的目标,在触手它的同时,要更加了解它:它的各国语言的名称,各种版本的翻译名,制作人,相关的关键词等。每一种触手的可能性都要尝试,通过大量尝试,就能够初步了解这个目标(或者总结成这类型目标)最有可能出现在哪些网站,然后强化自己的触手,对于一些骗点击网站或者是纯讨论网站的结果可以直接跳过了。对于被翻译的作品,搜索翻译者的名字有一定几率可以找到这个人所活动的论坛,这样的话,国内一般就没有比这个论坛更可能有这一作品的相关内容的地方了。论坛的使用技巧,无过于论坛的搜索功能;禁用了搜索,可以先使用搜索引擎网页快照迅速找到论坛中该作品讨论最活跃的板块和时间,然后通过翻页到那时间附近去找;对于停止注册、已经消失的论坛或论坛收费帖,我办法不多;但对于回复可见帖,请不要怕麻烦,地址就算失效了,我们还有逊蕾。
哦,差点忘了,贴巴资源丰富,适用于所有情况的触手,但是有资源时效短、触手困难等问题,目前没有特有的高效触手方案,是一个希望有人分享触手技巧的触手。

2、特定媒体所特有的触手技巧
图片触手
这里所说的图片触手,并非已知一个图片,求它的出处,而是已知一个目标,求它的图片。如果是第一种情况,请参考附录。
通用触手的许多技巧理所当然地适用于图片触手。不过图片触手有一些特别的技巧,叙述如下:
1)使用通用触手特有的图片搜索功能。这是句废话,不过也是首要的触手步骤。在通用图片触手中,中、大图比小图更有可能找到想要的,但小图有可能是图站中大图的预览图,所以都不要放过。
2)对于指定人物的图片触手,有时候搜索人物出现的作品名才能找到,因为对特定人有爱的资源提供者比对特定作品有爱的资源提供者少。这种做法,无关结果会增加,但也是没办法的事情。
3)通用触手,附加相册关键词。注意,不是用『site』技巧,而是使用例如『东方 “photo.136.com”』这样的通用触手关键词。这是为了命中那些把图放在相册然后在论坛分享的结果。除了以水产出名的136相册,其它著名相册也可以尝试一下,不过从经验看来除了badiu相册之外,命中可能性极低。找到了相册,请使用AlcumBon,伟大的相册下载工具;相册密码,请点进论坛页面寻找,或使用网页快照。
4)通用触手用完,就可以去大型/专业图站,如henmaitage、盟妹(可能要使用鹰文名)、piixv(同人专用)、phtoobukcet(要使用鹰文名)等。如果有更好的,请务必告诉我(恳切)。技巧请参考本篇2)。
5)如果以上触手都无效,请抱着世界末日般的绝望心情触手动漫门户网站和驴子,但求有图包下载。
音乐触手
同理,这里所说的音乐触手,并非已知一个音乐,求它的出处,而是已知一个目标,求它的音乐。如果是第一种情况,请参考附录。通用触手的许多技巧理所当然地适用于音乐触手。
1)badiu的mp3可以找到流行的音乐,但很奇怪的是,在那里1-1)技巧会失效,并且对于我自己而言,那里永远都找不到我想要的东西(怒)。
2)kguoo也只是值得尝试而已。
3)通用触手找歌时,使用『-“试听”』可以超有效地过滤掉大量骗点击网站!!同时误杀率不高。
4)图片触手-2)适用。找作品的歌,可以歌名和作品名都找找看,必要时制作人名、歌手都可以上。
5)没有比febnei更好的音乐站。但请使用通用触手协助搜索,格式:『歌名 site:music.febnei.com』。
6)dbmox也是挺不错的,不过下载速度很好很强大,请自备足够耐性和稳定的网络。
7)如果能找到歌曲所在专辑,也可以触手专辑的下载。
8)帝国大陆之外的网站虽然有歌曲资料,但提供下载的可能性极小。
下载触手
这个其实没什么技巧,无非是工具要够多(逊蕾首当其冲,然后是bictomet、eumle、Shrae Ex2、钠咪机器人……),地址要找到(请灵活使用以上触手)。唯一一个技巧也是个其实可以举一反三出来的技巧:请灵活使用诸如『关键词 site:napiman.com』这样的关键词来触手下载地址,嘿嘿。

3、附录和结束语
1)已知一个图片,找它的出处或同类
最好的办法应该是去人气论坛求图。如果图片附有水印之外的文字,请广泛触手这些文字,可能会有所收获。
2)已知一个音乐,找它的出处或同类
同1)。如果是歌曲不知道歌名,请搜索它的歌词;如果是它国语言的歌词,以曰文为例,请使用字符映射表对着曰文平假名读法去拼凑歌词,同时利用通用引擎的模糊触手逐步纠正听错了的歌词,最后入手了歌词,自然就能入手歌名了。对于音乐,一个叫miodmi的网站据说可以通过自己哼唱一段音乐来找这段音乐的出处,真实性待查。
以上只是部分技巧,更多的触手和触手技巧会随着你对世界的理解的深入(误),对资源提供者、资源讨论者和骗点击网站的站长的行文心理的揣测能力的逐步增强而被你一个又一个地创造出来。与此同时,没必要为东西找不到而感到伤心,不会找才是可悲的;触手的终极境界,不是『如果有,就找出来』,而是『如果我找不到,没有别人可以找到』,我想,能够达到后面一种境界,就已经很成功了,嗯。
最后,不要吊死在一棵树上,因为世界是多姿多彩的。

The end。禁止人类转载,嘿嘿。…

啊啊啊……不更新对不起党……

其实距离上次更新也不是很久……不过上篇写的东西太没谱了,这次写点有谱的嗯。
        秋学期的考试加上传说中的教学评估,成为了我错过无数好企招聘的借口……现在已经没多少感觉合适的企业在招聘了……找工作的问题耽搁了许久,估计即将要成为家里蹲一族了……不过这么现实这么沉重的话题不符合我的风格,还是说点轻松的嗯。
        昨天体能测试,立定跳+1000m,骨头架子都散掉了……然后然后,这几天严重缺乏睡眠,而且长期处于高度精神集中的『用户体验研究』状态(OLGame……=.=|||),现在长期处于感觉相当恶劣的状态,不过躺下就能睡着倒是不错……
        昨晚很无聊,便去味风堂搓了顿。第一次去是guoguo同学的生日,然后觉得还不错就偶尔去了……推荐大家去这个地方啊,特色菜是蝴蝶骨,石头牛肉建议吃且仅吃一次,个人认为手撕沙姜鸡也很不错……古墩路371号,817在桂花城下或者打的到金田花园就好了。吃完之后一路走回来,虽然刚跑完1000m但果然这样子走回学校感觉还是相当好啊。
        今天本来打算去查良镛的什么名誉院长颁发仪式暨交流会,不过我从5点开始睡睡到6点半才吃饭,想起来的时候已经开始有半个小时了……还是去了,到的时候看到许多人从现场直播的房间冲出来,大约打算冲到查良镛所在的房间拿签名?于是直接去现场直播的房间,貌似查良镛刚发表完某某讲话然后开始接受提问……老人家说话都直哆嗦了,根本听不清他说什么,但是拜托诸位不要问『你如何看待当今中国道德缺失?』『你是如何参与政治的?』这种变态问题啦,存心为难老人家么,真是的……和他拉拉家常聊聊武侠就好了……还有个人竟然张嘴就是『茶』良镛,太丢ZJUers的面子了。
        以上是非闲话,下面是闲话:怎样找到真正好的东西?
        在网上混久了就变成怀疑论者:一切都不可信。某段时间泡cnbeta较多,看着大部分的评论都像是托:肯定是收了钱然后给某利益群体说话的。于是,渐渐不知道什么是真正值得推荐的了,因为所有的推荐都可能是基于某种目的——又变成了《货币战争》那样的阴谋论。说起《货币战争》,本来我是郎咸平的忠实支持者,看完《货币战争》之后就觉得,他会不会也是某利益集团的托啊?呵,恕我冒昧了郎先生。
        但现在我还是感到,有那么些东西的确是好的,因为我相信推荐他的人是好的。网不易、煎蛋、草莓、小众软件、月光博客和对牛乱弹琴等,我没有任何理由地相信着它们并不代表某种利益集团,于是它们所推荐的都会让我非常感兴趣:王小波也好,青铜骑士也好,Randy Pausch’s last lecture也好。我开始看王小波是因为网不易的糖和尚的父亲是他,青铜骑士是王小波推荐的,而Randy的演讲则来自网不易中提到的朱学恒的路西法地狱的推荐。所有这些我都去关注了,阅读了,思考了,所以我不再抱怨信仰缺失,不再信仰虚无,像是空中的安泰俄斯落在了地上一样。
        当且仅当这个时候,我能够感受到传说中的Web2.0,传说中的Social Network。

ps:觉得自己写文章都是杂记一样的,一点都不能围绕固定话题无限展开,难道我真的是王小波说的那种只看文章摘要就会很满足的,不懂得欣赏小说的屎人?…

有些事,在得到明确之后,反而有一种痛快的感觉。

看完了一个Blog,外加一个相册。一切出乎意料,但又在情理之中。原来一个人是可以活得那么好的啊,原来我只看到了地上斑驳的树影,却看不到那星星点点的光。遥远的梦终于被现实破碎了,这次很彻底,大概不会再有任何翻身的余地了。

我会像以前那样迅速地淡忘吗?不会,因为距离产生的美会通过虚无的传输不停地给予我刺激,后面的道路,如果我不沉沦下去,如果我不沉沦下去……我的思维到达了无以复加的混乱,当然可能是夜深的关系,但是我的外表却终究保持着平静。只是一种习惯。

当这篇日志也成为了痛苦的根源之一,当光标不停地吞噬着无序的文字……我只剩下躯壳,灵魂被碾为粉末。秋天来了啊,不知不觉间,一瞬间。

这就是一个事实:有那么一个人,她的真实存在会让另外一个人崩溃。

* * * * *

要去收起一些忘记收的药材,然后睡觉。Anyway,上面只是抒情。

Project Suiseiseki

目标:http://www.pixnet.net/thumbnails.php?album=801189&page=1
任务:下载全部图片,564枚
难点:文件名亚随机
突破口:图片路径一致,缩略图文件名与原始图文件名相关
应用软件:IE,ACDSee,Winword,Notepad,Flashget

(失败过程略)
最终解决方案:

  1. 关闭自动清除上网记录;
  2. 用IE浏览29页缩略图;
  3. 进入临时文件夹,用“按地址排列”把564张缩略图复制到新建文件夹中;
  4. 打开ACDSee,生成该文件夹的文件列表;
  5. 用Winword的矩状删除去掉文件列表中除文件名外的所有信息;
  6. 用Notepad为文件名加上路径,同时删掉缩略图标记“thumb_”和IE临时文件夹的自动标记“[1]”;
  7. 用Flashget导入文件列表,开始下载。

最终把整个相册的图片都弄下来了……心得:

  1. 摒弃了NetTransport,原因是这个软件的附加功能不够多,居然不能够导出下载列表(我记得以前好像行的啊),Flashget也有缺点,就是下载全页面内容的时候……难道就不能够把图片也识别出来?上面说了这么多,其实只要有一个Netget或者FlashTransport就可以使过程简化一点了;
  2. 拖把更名器啊,你导出文件怎么就不能带后缀呢?否则可以把4、5简化掉了;
  3. ACDSee除了是强大的看图软件外,还是强大的批处理软件,简直就帅呆了。

翠星石~~~oh yeah~~~