2007-09-25

chickenfoot模拟浏览器点击

chickenfoot是firefox的一个插件,它通过javascript脚本,可以模拟用户在网页上的行为。比如点击,输入,等等。大家可以试试,我用了一下,感觉很好。嘿嘿

2007-09-21

SIGIR 2007

Hierarchical Classification for Automatic Image Annotation
Jianping Fan

Alternatives to Bpref
Tetsuya Sakai

Laplacian Optimal Design for Image Retrieval
Xiaofei He, Deng Cai

Federated Text Retrieval From Uncooperative Overlapped Collections
Milad Shokouhi, Justin Zobel

A New Approach for Evaluating Query Expansion: Query-document Term Mismatch
Tonya Custis, Khalid Al-Kofahi

Fast Generation of Result Snippets in Web Search
Andrew Turpin, Yohannes Tsegay, David Hawking, Hugh E. Williams

Updating Collection Representations For Federated Search
Milad Shokouhi, Mark Baillie, Leif Azzopardi

HITS hits TREC: Exploring IR evaluation results with network analysis
Stefano Mizzaro, Stephen Robertson

Latent Concept Expansion Using Markov Random Fields
Donald Metzler, Bruce Croft

Query Performance Prediction in Web Search Environments
Yun Zhou, Bruce Croft

Indexing Confusion Networks for Morph-based Spoken Document Retrieval
Ville Turunen, Mikko Kurimo

Reliable Information Retrieval Evaluation with Incomplete and Biased Judgements
Stefan Buettcher, Charles Clarke, Peter Yeung, Ian Soboroff

New Event Detection Based on Indexing-tree and Named Entity
Kuo ZHANG, JuanZi LI, Gang WU

A Time Machine for Text Search
Klaus Berberich, Srikanta Bedathur, Thomas Neumann, Gerhard Weikum

Compressed Permuterm Index
Paolo Ferragina, Rossano Venturini

Detecting, Categorizing and Clustering Entity Mentions in Chinese Text
Wenjie Li, Donglei Qian, Chunfa Yuan, Qin Lu

FRank: A Ranking Method with Fidelity Loss
Ming-Feng Tsai, Tie-Yan Liu, Tao Qin, Hsin-Hsi Chen, Wei-Ying Ma

A Regression Framework for Learning Ranking Functions Using Relative Relevance Judgments
Zhaohui Zheng, Hongyuan Zha, Keke Chen, Gordon Sun

History Repeats Itself: Re-Finding Queries in a Major Search Engine's Logs
Jaime Teevan, Eytan Adar, Rosie Jones, Michael Potts

Random Walks on the Click Graph
Nick Craswell, Martin Szummer

Towards Automatic Extraction of Event and Place Semantics from Flickr Tags
Tye Rattenbury, Nathaniel Good, Mor Naaman

Clustering of Documents with Local and Global Regularization
Fei Wang, Changshui Zhang, Tao Li

An InterActive Algorithm For Asking And Incorporating Feature Feedback into Support Vector Machines
Hema Raghavan, James Allan

Efficient Document Retrieval in Main Memory
Trevor Strohman, Bruce Croft

A Boosting Algorithm for Information Retrieval
Jun Xu, Hang Li

How well does result relevance predict session satisfaction?
Scott Huffman, Michael Hochster

A Support Vector Method for Optimizing Average Precision
Yisong Yue, Thomas Finley, Filip Radlinski, Thorsten Joachims

Strategic System Comparisons via Targeted Relevance Judgments
Alistair Moffat, William Webber, Justin Zobel

Topic Segmentation with Shared Topic Detection and Alignment of Multiple Documents
Sun Bingjun, Prasenjit Mitra, Lee Giles, Hongyuan Zha, John Yen

HITS on the Web: How does it Compare?
Marc Najork, Hugo Zaragoza, Michael Taylor

Effective Missing Data Prediction for Collaborative Filtering
Hao Ma, Irwin King, Michael R. Lyu

Feature Selection for Ranking
Xiubo Geng, Tie-Yan Liu, Tao Qin

Interesting Nuggets and Their Impact on Definitional Question Answering
Kian-Wei Kor, Tat Seng Chua

Ranking with Multiple Hyperplanes
Tao Qin, Tie-Yan Liu, Wei Lai, Xu-Dong Zhang, De-Sheng Wang, Hang Li

Building Simulated Queries for Known-Item Topics: An Analysis using Six European Languages
Leif Azzopardi, Maarten de Rijke, Krisztian Balog

CollabSum: Exploiting Multiple Document Clustering for Collaborative Single Document Summarizations
Xiaojun Wan

The Influence of Caption Features on Clickthrough Patterns in Web Search
Charles Clarke, Eugene Agichtein, Susan Dumais, Ryen White

Personalized Query Expansion for the Web
Paul - Alexandru Chirita, Claudiu Firan, Wolfgang Nejdl

Principles of Hash-based Text Retrieval
Benno Stein

An Outranking Approach for Rank Aggregation in Information Retrieval
Mohamed Farah, Daniel Vanderpooten

Deconstructing Nuggets: The Stability and Reliability of Complex Question Answering Evaluation
Jimmy Lin, Pengyi Zhang

DiffusionRank: A Possible Penicillin for Web Spamming
Haixuan Yang, Irwin King, Michael R. Lyu

Investigating the Querying and Browsing Behavior of Advanced Search Engine Users
Ryen White, Dan Morris

Neighborhood Restrictions in Geographic IR
Steven Schockaert, Martine De Cock

A Probabilistic Graphical Model for Joint Answer Ranking in Question Answering
Jeongwoo Ko, Luo Si, Eric Nyberg

Towards Task-based PIM Evaluations
David Elsweiler, Ian Ruthven

Utility-based Information Distillation Over Temporally Sequenced Documents
Yiming Yang, Abhimanyu Lad, Ni Lao, Abhay Harpale, Bryan Kisiel, Monica Rogati, Jian Zhang, Jaime Carbonell, Peter Brusilovsky, Daqing He

A Semantic Approach to Contextual Advertising
Vanja Josifovski, Andrei Broder, Lance Riedel, Marcus Fontoura

Test Theory for Assessing IR Test Collections
David Bodoff, Pu Li

Vocabulary Independent Spoken Term Detection
Jonathan Mamou, Bhuvana Ramabhadran, Olivier Siohan

ESTER: Efficient Search on Text, Entities, and Relations
Holger Bast, Alexandru Chitea, Fabian Suchanek, Ingmar Weber

A Combined Component Approach for Finding Collection-Adapted Ranking Functions based on Genetic Prog
Humberto Almeida, Marcos Goncalves, Marco Cristo, Pavel Calado

Supporting Multiple Information Seeking Strategies in a Single System Framework
Xiaojun Yuan, Nicholas Belkin

Context Sensitive Stemming for Web Search
Fuchun Peng, Nawaaz Ahmed, Xin Li, Yumao Lu

Know your Neighbors: Web Spam Detection using the Web Topology
Carlos Castillo, Debora Donato, Aristides Gionis, Vanessa Murdock, Fabrizio Silvestri

Combining Content and Link for Classification using Matrix Factorization
Shenghuo Zhu, Kai Yu, Yun Chi, Yihong Gong

Evaluating sampling methods for uncooperative collections
Paul Thomas, David Hawking

An Exploration of Proximity Measures in Information Retrieval
Tao Tao, ChengXiang Zhai

Relaxed Online Support Vector Machines for Spam Filtering
D. Sculley, Gabriel Wachman (best student paper)

Robust Classification of Rare Queries Using Web Knowledge
Andrei Broder, Marcus Fontoura, Evgeniy Gabrilovich, Amruta Joshi, Vanja Josifovski, Tong Zhang

Multiple-signal duplicate detection for search evaluation
Scott Huffman, April Lehman, Alexei Stolboushkin, Howard Wong-Toi, Fan Yang, Hein Roehrig

Structured Retrieval for Question Answering
Matthew Bilotti, Paul Ogilvie, Jamie Callan, Eric Nyberg

Robust Evaluation of Information Retrieval Systems
Ben Carterette

On the Robustness of Relevance Measures with Incomplete Judgments
Tanuja Bompada, Chi-Chao Chang, John Chen, Ravi Kumar, Rajesh Shenoy

Cross-Lingual Query Suggestion Using Query Logs of Different Languages
Wei Gao, Cheng Niu, Jian-Yun Nie, Ming Zhou, Jian Hu, Kam-Fai Wong, Hsiao-Wuen Hon

Efficient Bayesian Hierarchical User Modeling for Recommendation Systems
Yi Zhang, Jonathan Koren

Studying the Use of Popular Destinations to Enhance Web Search Interaction
Ryen White, Mikhail Bilenko, Silviu Cucerzan (best paper)

Knowledge-intensive Conceptual Retrieval and Passage Extraction of Biomedical Literature
Wei Zhou, Clement Yu, Neil Smalheiser, Vetle Torvik, Jie Hong

The Impact of Caching on Search Engines
Ricardo Baeza-Yates, Aristides Gionis, Flavio Junqueira, Vanessa Murdock, Vassilis Plachouras, Fabrizio Silvestri

Heavy-Tailed Distributions and Multi-Keyword Queries
Arnd Konig, Surajit Chaudhuri, Liying Sui, Kenneth Church

Improving Text Classification for Oral History Archives with Temporal Domain Knowledge
James Olsson, Douglas Oard

Estimation and Use of Uncertainty in Pseudo-relevance Feedback
Kevyn Collins-Thompson, Jamie Callan

Term Feedback for Information Retrieval with Language Models
Bin Tan, Atulya Velivelli, Hui Fang, ChengXiang Zhai

Enhancing Relevance Scoring With Chronological Term Rank
Adam Troy, Guo-Qiang Zhang

Inverted Index Pruning with Correctness Guarantee
Alexandros Ntoulas, Junghoo-John Cho

A Study of Poisson Query Generation Model for Information Retrieval
Qiaozhu Mei, Hui Fang, ChengXiang Zhai

ARSA: A Sentiment-Aware Model for Predicting Sales Performance Using Blogs
Yang Liu, Jimmy Huang, Aijun An, Xiaohui Yu

A Music Search Engine Built upon Audio-based and Web-based Similarity Measures
Peter Knees, Tim Pohle, Markus Schedl, Gerhard Widmer

Learn from Web Search Logs to Organize Search Results
Xuanhui Wang, ChengXiang Zhai

Using Query Contexts in Information Retrieval
Jing Bai, Jian-Yun Nie, Hugue Bouchard, Guihong Cao

Measuring the Spatial Correlation of Retrieval Functions for Zero- Judgment Performance Prediction
Fernando Diaz

Towards Musical Query-by-Semantic-Description using the CAL500 Data Set
Douglas Turnbull, Luke Barrington, David Torres, Gert Lanckriet

Web Text Retrieval with a P2P Query-Driven Index
Gleb Skobeltsyn, Toan Luu, Ivana Podnar, Martin Rajman, Karl Aberer

Analyzing Feature Trajectories for Event Detection
Qi He, Kuiyu Chang, Ee-Peng Lim

Broad Expertise Retrieval in Sparse Data Environments
Krisztian Balog, Maarten de Rijke, Leif Azzopardi

2007-09-19

提升PHP速度全攻略

PHP的优点之一是速度很快,对于一般的网站应用,可以说是已经足够了。不过如果站点的访问量很高、带宽窄或者其它的因素令服务器产生性能瓶颈的时候,你可能得想想其它的办法来进一步提高PHP的速度了。这篇文章将从几个方面介绍如何做到这一点,从而令用户浏览的时候更加“爽”。

代码优化

  在这里并不想再次告诉你如何写更干净的代码,这一点我想每个人都清楚,在需要速度的时候,你可能已经在PHP源代码的优化上面做了不少的工作,这里所提出的是,这个烦琐的工作可以交由其它工具来完成。这就是Zend Optimizer,此程序可以从Zend Technologies的网站(http://www.zend.com/)免费得到。它的原理很简单,通过检测Zend引擎产生的中间代码,并且优化它来得到更高的执行速度。我认为优化代码是一项颇烦琐的工作,而且优化后的代码可能变得难以理解,尤其是当你放下该PHP程序一段时间后,突然间客户要求你做一些修改时,可能你自己也不懂了;-)。因此我建议你在PHP的源代码较为复杂的时候,用Zend Optimizer来做这个优化的工作,好处是它不会令你的代码变得复杂难懂。

  安装Zend Optimizer是非常简单的。只要根据你使用的平台,下载相关的预编译库,并且在你的php.ini中加入两行,重新启动你的web服务器就行了!

zend_optimizer.optimization_level=15
zend_extension=\"/path/to/ZendOptimizer.so\"
zend_loader.enable=Off

  你可能有点奇怪,不是说两行吗,怎么变成三行了。不过第三行是可选的,看来禁止这个zend_loader将会令优化的速度更快,因此不妨在你的php.ini文件中多加这一行。要注意的是:只有在你不使用Zend Encoder Runtime的时候,才可以禁止zend_loader,关于Zend Encoder Runtime,还会在下文提到。

要更快吗?使用cache(缓冲)吧

  如果你的PHP应用还需要更快的速度,下一个办法是缓冲。要实现这一点,有几种不同的方式。我自己就试用过Zend Cache(评测版本),APC和Afterburner Cache。

  以上提到的都是“缓冲模块”。它们的原理都差不多,在php文件被首次请求的时候,通过将你的PHP源代码的中间代码存储在web服务器的内存中,对于以后同样的请求,都直接提供内存中的“编译”版本。由于它可以令磁盘的访问达到最小化,因此这个方法确实可以极大地提高PHP的性能。更为方便的是,当你的PHP源代码修改时,缓冲的模块可以察觉到这些变化,并且重新载入一样,因此你不必担心客户得到的是旧版本的程序。这些缓冲的模块确实不错,但是我应该选用哪一种呢?下面分别介绍一下:

  Zend Cache是Zend Technologies的一个商业化的产品(它也是免费为我们提供PHP引擎和Zend Optimizer的公司)。它确实不错。在首次运行后,你可以明显察觉到PHP的速度得到了很大的提高,服务器的空闲资源也更多了。缺点是你要付费购买它,但就性价比来说,还是非常值得的。

  Afterburner Cache是Bware Technologies(http://bwcache.bware.it/)提供的免费缓冲模块。当前还只是beta版,它所做的工作看来与Zend Cache差不多,不过性能的提高就比不上Zend Cache,而且现有的版本不能和Zend Optimizer一起工作,不过它是免费的。

  APC(Alternative PHP Cache)是由Community Connect(http://apc.communityconnect.com/)提供的另一个免费模块。它的工作很稳定,速度也有不少的提高,要注意的是,我还没有找到一个官方的测试数据,这些只是在我的应用上作测试,因此不能下一个结论。
Web内容的压缩(令你客户用起来更“爽”)

  经过以上两个的方法,相信你的PHP应用的性能已经得到了很大的提高,现在该从另一个方面来考虑了:下载速度。如果你的应用只是在公司内跑,所有的客户都使用100Mb/s的以太网连接到服务器,这可能不是一个问题,但是如果你的客户中有使用慢速的modem连接的,你就要考虑使用内容压缩这个方法了。根据IETF的规范,大多数的浏览器都支持gzip的内容压缩。这意味着你在将web的内容发给客户的浏览器前,可以先使用gzip进行压缩,浏览器在接收的时候就会自动解压数据,并且令用户看到原来的页面。同样,压缩web页面的内容也有几个不同的方法。

  mod_gzip是Remote Communications(http: //www.phpbuilder.com/columns/www.remotecommunications.com)免费提供的一个Apache模块,它可以压缩静态的web页面。它工作得很好,你只需要将它和apache一起编译就行了(或者将它作为一个DSO使用)。 Remotecommunications的人说它还可以压缩动态的内容,包括mod_php, mod_perl等。不过我尝试了一下,看来并不行。我在mod_gzip的邮件列表中了解到,这个bug将在下一个版本中修正(我想应该是 1.3.14.6f版本)。不过你仍然可以用它作静态内容的压缩。

  不过我们还想压缩动态的内容,因此我们必须找另外的办法。一个办法是使用class.gzip encode.php(http://leknor.com/code/),只要在你的PHP脚本中的开头和结尾调用这个PHP类,就可以压缩你的页面内容。如果整个站点都需要这样的压缩,你可以在你的php.ini文件中的auto_prepend和auto_append中调用这些函数。它工作得很好,不过在负载很重的站点上,它明显会带来一点的系统开销。要详细了解它是如何工作的,可以看一下它的类代码(你至少需要在编译PHP时加入zlib支持)。作者在里面的说明也非常详细,你可以得到任何需要了解的东西。

  在最近,我也看到了一篇关于PHP输出缓冲的文章。它说的是PHP4.0.4推出了一种新的输出缓冲的处理手段--ob_gzhandler,它的作用和上面介绍的类相同,但区别是你只要在你的php.ini中使用以下的句法就行了:

output_handler = ob_gzhandler ;

  这样将激活PHP的输出缓冲功能,并且压缩所有它发送的东西。出于某些特别的原因,如果你不想在这里设置的话,只在需要的地方才改变这个默认设置的话(不压缩),只要在需要压缩的PHP源码目录中,修改一下.htaccess文件就行了,使用的句法如下:

php_value output_handler ob_gzhandler

... 或者直接在你的PHP代码中调用它,以下面的方式:

ob_start(\"ob_gzhandler\");

  这个输出缓冲处理的方法很好,并且不会为服务器带来额外的系统开销。我十分建议你使用这种方法。它的改变可以用以下的例子说明,如果客户使用的是28.8K的modem的话,经过这个处理,他将会认为突然间换成了一个ISDN接入一样。要注意的一点是:Netscape Communicator并不支持图象的压缩,所以将显示不出来。因此除非你的客户全部使用Internet Explorer,否则你必须禁止压缩jpeg和gif图象。其它文件的压缩应该没有问题,但是我建议你最好测试一下,特别是浏览器使用了不常见的插件或者是少人用的浏览器。

其它有用的东西...

  Zend Technologies的在线商店在今年1月24开通了,并且售卖一些与PHP相关的有趣产品。包括前面提到的Zend Cache,Zend Encoder(简单说来,是PHP代码的编译器,可以产生编译的类,这样你就可以售卖给顾客而不用担心泄露源代码。在需要运行这些类的web服务器上,将要使用Zend Encoder Runtime来解码),Zend Ide(一个为PHP而设的集成化开发环境,带有很多强大的性能),还有为PHP开发者提供的支持服务。

结论

  使用这篇文章提到的技术,你将可以极大地提高站点的性能,不过请注意以下几点:

1.瓶颈或许不在PHP,你需要考察应用中的每个对象(例如数据库)
2.一个web服务器的性能都是有限制的,因此,不要认为性能不好就是PHP的原因,也可能是访问量很大,你的服务器需要升级了,或者考虑使用负载均衡的系统(将会花很多钱)
3.不要认为内容压缩不重要,在100Mb/s的局域网中,你的PHP应用或许性能很好,但要考虑到使用慢速modem的用户。

2007-09-15

Mathon广告过滤规则发现

今天发现,Mathon过滤的广告是根据url过滤的
比如url中含有单独的ad字符串,就会被过滤
比如 http://xxx.xx.xxx/ad/xxx
或者 http://xxx.xx.xxx/ad.html
等等都被会过滤

不过 http://xxx.xx.xxx/xxadxx/xxx
不会被过滤

2007-09-14

blogspot抽风了

看来昨天能访问是抽风的表现,还得我白高兴了一场。

2007-09-13

CINDOO 新维度 新媒体

http://www.cindoo.com/


终于解封了

不知道下次什么时候封。

不过还是欢迎大家访问我们的网站 http://www.cindoo.com/
嘿嘿